【数据分析】如果我们心存偏见,还能做好数据分析吗?

现代服务产业技术创新战略联盟 2017-01-14 22:41

本文转自品觉(pinjue_ali) 序 马克·安德森(Marc Andreessen)的一句名言:“软件正在吞噬整个世界。”各行各业发现,分析对'...

本文转自品觉(pinjue_ali)

马克·安德森(Marc Andreessen)的一句名言:“软件正在吞噬整个世界。”各行各业发现,分析对保持竞争力至关重要。政府则发现,分析对履行政府义务至关重要。

我们可能会因为和我们拥有相同购买或信用记录的其他人曾经开车不小心,而不是因为我们自己曾经开车不小心,而在购买汽车保险时被收取更高的费用。这就是偏见的本质:假定一个人将像同类的其他人那样行事。

计算领域的一条重要戒律,就是计算机不能改变人类责任。如果人类做某件事情是不合法或不道德的,那么人类创造的计算机程序做这件事情也是不合法或不道德的。但太多的人把计算机程序作为挡箭牌。“我们是在使用计算机分析程序,所以没有关系”,这就是数字版的“我只是按命令行事”。

在以色列电视喜剧《阿拉伯劳工》(Arab Labor)里,阿拉伯人主角沮丧地发现,他经常在检查站被拦下。他问一位以色列朋友,如何避免这种情况。朋友建议他买一辆特定牌子和型号的汽车。阿拉伯人照做了。神奇的是,他开始顺利通过检查站,再也没有受到骚扰。面对预测分析,会有很多人寻找那辆能够让自己度过困境的“好车”。

新闻记者和政策制定者正渐渐意识到一个问题,某些最有前途、最强大的计算工具存在巨大的缺陷。随着预测分析进入越来越多的领域——推送广告;开拓新市场;作出重要决定,比如让谁得到贷款,让谁得到新工作,甚至是把谁送进监狱和暗杀谁这样的伦理道德决定——某些特定群体遭受歧视和偏见的迹象日益增多。

本文着重探讨分析中这种普遍趋势的技术和社会层面。我研究了分析在执行过程中为什么难以做到公平公正,以及这说明分析处于怎样的社会背景。关于这个话题,美国计算机协会(ACM)举办的一场研讨会和我围绕这场研讨会所做的研究为我提供了一些有用见解。

分析无处不在

预测分析似乎证实了马克·安德森(Marc Andreessen)的一句名言:“软件正在吞噬整个世界。”各行各业发现,分析对保持竞争力至关重要。政府则发现,分析对履行政府义务至关重要。这些压力推高了数据科学家(数据科学不只是统计学,但拥有深厚的统计学背景是必要条件)的薪水,并且使得市场调研公司Gartner作出了数据科学家将大量短缺的预测。

分析(更准确地说是模拟)甚至在近期热门电影《萨利机长》(Sully)中扮演了重要角色,但基本上是反派。该片说明了人类社会日益依赖算法的一个最令人不安的方面:身居高位、权力巨大的政策制定者有时会让算法替他们作出判断,而他们根本不明白算法的运行机制和可能造成的后果。在《萨利机长》中,调查员把一条事关重大的错误信息输入系统,还用不切实际的假设情境来训练系统。当这些计算的受害者对模拟背后的假设情境提出质疑时,调查员自鸣得意地说:“我们运行了20次模拟!”他们没有意识到,这20次模拟都是建立在同样的错误假设之上,将会得出同样的错误结论。当受害者要求查看详细的输入数据时,他们打官腔拒绝了这一要求。虽然《萨利机长》可能精心安排了事件背后的一些事实,但对于分析在现代生活中的使用,该片为我们提供了很多经验教训。

需要指出的是,分析可以帮助作出正确决策。在我参加ACM的那场研讨会期间,我的信用卡提供商进行的分析发现,有人窃取了我的信用卡信息,试图盗用我的卡。他们的专家分析系统立刻冻结了这张卡,没有造成金钱损失。虽然在旅行途中发现我的卡被冻结,给我带来了不便,但我还是感激那些保护了我和银行的分析工具。

使用分析的大多数公司希望通过减少主观性来减少偏见。偏见一直都存在,不需要计算机。越来越多的研究表明,工作面试无法有效地判定谁能做好这份工作,原因主要在于我们面对面评估应聘者时作出的仓促决定,这很容易受到内隐偏见的影响。对大脑运作的研究显示,白人和亚洲人在潜意识里对黑人抱有根深蒂固的不信任感,这使得改善警察执法实践的努力面临着更大的困难(举个例子)。偏见很早就开始影响人们的生活。黑人学生和白人学生在学校里做出同样的违规行为,黑人学生更容易受到处罚。我们从小就受到由来已久的偏见影响。

不幸的是,预测分析常常重现社会的偏见,因为它们的创造者是带有偏见的人,或者因为它们使用带有偏见的历史数据进行训练。

一个广为人知、无可争辩的例子来自于拉坦娅·斯威尼(latanya sweeney)在2013年所做的研究。斯威尼是著名的隐私研究员,她最为人所知的,是证明了公共记录可以被用来揭露美国马萨诸塞州州长威廉·维尔德(William Weld)的医疗信息。这促使健康隐私法律作出了重大修改。她在2013年进行的研究显示,在谷歌(Google)上搜索美国黑人的常用名,往往会出现给出此人逮捕记录的广告。搜索白人的常用名,则往往不会出现这样的广告。但是人事经理、房东等人在搜索潜在候选人时,如果出现这样的广告,会很容易被吓阻,尤其是当一群求职者中只有黑人应聘者的名字导致这种广告出现的时候。

很多政策行动组织都签署了一份《大数据时代民权原则》(Civil Rights Principles for the Era of BigData)的文件,呼吁公平公正,但没有说具体如何做到这一点。在美国,恐怕会很难让政策制定者关注到这个问题,因为新上台的当权者们自己就公开宣扬偏见和歧视,但有道德心的程序员及其雇主将会继续寻找解决办法。

让我们看看这对弄清分析中的偏见意味着什么。

成为有辨别力的思考者

我记得一位小学老师对她的学生们说,她希望我们成为“有辨别力的思考者”。区别对待有时是好事。如果某人曾经借钱挥霍,购买自己买不起的昂贵物品,那么不给他贷款对银行和公众都有好处。问题是我们用什么标准来加以区别。

ACM研讨会的与会者们对道德标准进行了一番讨论。分析专业人士是否应该建立某种具体的道德标准来控制分析的使用?或者,专家是否应该以公开透明为目标,让公众了解决策的制定过程,而不建立具体的道德标准?

我认为,最好的做法是坚持被广泛接受的社会标准。例如,在上世纪60年代,美国以宪法第一修正案为依据,禁止民族、种族和宗教歧视。后来,性别和残疾被加入保护行列,然后是性取向(在22个州的管辖范围内),近期则是性别认同(也就是跨性别者和非二元性别者)。1948年的联合国《世界人权宣言》在第二条中呼吁人人平等,“不分种族、肤色、性别、语言、宗教、政治或其他见解、国籍或社会出身、财产、出生或其他身份等任何区别。并且不得因一人所属之国家或领土的政治、法律管辖或者国际地位之不同而有所区别,无论该领土是独立领土、托管领土、非自治领土或者处于其他任何主权受限制的情况之下”。这里的“其他身份”表述模糊,但其余部分相当明确具体。

 1 2 3 4 下一页 尾页
最新文章
猜你喜欢