测量机器学习中的偏差：统计偏差测试

manha123@ · 发表于 2023-11-5 15:01:20

近年来，机器学习模型中的偏差问题一直受到广泛关注。模型出错的故事成为头条新闻，人道主义律师、政治家和记者都参与了关于我们希望在我们构建的模型中反映哪些道德和价值观的对话。虽然人类偏见是一个棘手的问题，而且并不总是容易定义，但机器学习中的偏见归根结底是数学上的。您可以对模型执行许多不同类型的测试，以识别其预测中不同类型的偏差。执行哪个测试主要取决于您关心的内容以及使用模型的上下文。最广泛适用的测试之一是统计奇偶性，本实践教程将介绍这一点。现在，偏见总是根据数据中受保护的属性（例如种族、性别、年龄、性取向、国籍等）识别的不同人群进行评估。通过统计均等，您的目标是衡量不同群体是否有相同的概率实现有利的结果。一个典型的例子是招聘模型，您希望确保男性和女性申请人被雇用的可能性相同。在有偏见的模型中，您会发现一组享有特权，被雇用的可能性较高，而另一组则处于弱势。

为了演示其在实践中的工作原理，我们将首先使用我们预定义的偏差构建合成数据，然后通过分析确认数据反映了我们预期的情况，最后应用统计奇偶校验。生成综合数据在本教程中，我们将在 Python 中使用 pandas 包，但此过程中的每个步骤也可以在 R 中重现。要生成具有一个受保护属性和模型预测的合成数据，我们首先需要指定一些输入：记录总数、受保 南非 WhatsApp 号码列表 护属性本身（这里是两个通用值 A 和 B）以及与有利的结果，在本例中为值 1。在现实生活中，A 组和 B 组在我们的数据中可能分布不均匀。在下面的代码中，我们确定数据中 60% 的人口来自特权群体 B，他们有 30% 的机会获得有利的结果。非特权组 A 将构成剩余的 40% 数据，并且只有 15% 的概率获得有利结果。对于每条数据记录，我们使用之前指定的偏差作为权重，随机分配一个受保护组和一个预测，然后从记录列表中创建一个数据框。

现在我们有了合成数据，让我们分析我们所构建的内容。对于 A 组和 B 组，他们获得有利或不利结果的班级概率是多少？通过查看表格，我们不难发现B组获得有利结果的可能性几乎是双倍，概率为28.6%。我们的合成数据被设计为概率为 30%，所以我们已经接近目标了。然后我们将概率保存在字典中。由于它是随机生成的，因此您的代码可能会给出略有不同的结果。对于特权组 B，统计奇偶分数为 1，这是理所应当的。对于另一组 A，他们的得分为 0.526，这表明他们实现有利结果的可能性大约是 B 组的一半。统计偏差测试提供了对数据中选定组的预测结果可能有多大差异的简单评估。测量偏差的目标有两个。一方面，该测试产生了透明的指标，使沟通变得更容易、更具体。但理想情况下，识别偏差是开始在模型中减轻偏差的第一步。