为了演示其在实践中的工作原理,我们将首先使用我们预定义的偏差构建合成数据,然后通过分析确认数据反映了我们预期的情况,最后应用统计奇偶校验。 生成综合数据 在本教程中,我们将在 Python 中使用 pandas 包,但此过程中的每个步骤也可以在 R 中重现。要生成具有一个受保护属性和模型预测的合成数据,我们首先需要指定一些输入:记录总数、受保 南非 WhatsApp 号码列表 护属性本身(这里是两个通用值 A 和 B)以及与有利的结果,在本例中为值 1。在现实生活中,A 组和 B 组在我们的数据中可能分布不均匀。在下面的代码中,我们确定数据中 60% 的人口来自特权群体 B,他们有 30% 的机会获得有利的结果。非特权组 A 将构成剩余的 40% 数据,并且只有 15% 的概率获得有利结果。对于每条数据记录,我们使用之前指定的偏差作为权重,随机分配一个受保护组和一个预测,然后从记录列表中创建一个数据框。
现在我们有了合成数据,让我们分析我们所构建的内容。对于 A 组和 B 组,他们获得有利或不利结果的班级概率是多少?通过查看表格,我们不难发现B组获得有利结果的可能性几乎是双倍,概率为28.6%。我们的合成数据被设计为概率为 30%,所以我们已经接近目标了。然后我们将概率保存在字典中。 由于它是随机生成的,因此您的代码可能会给出略有不同的结果。对于特权组 B,统计奇偶分数为 1,这是理所应当的。对于另一组 A,他们的得分为 0.526,这表明他们实现有利结果的可能性大约是 B 组的一半。 统计偏差测试提供了对数据中选定组的预测结果可能有多大差异的简单评估。测量偏差的目标有两个。一方面,该测试产生了透明的指标,使沟通变得更容易、更具体。但理想情况下,识别偏差是开始在模型中减轻偏差的第一步。