自动化偏见:当机器了解性别时

去年,机械学习的大型创新占据了头条新闻的理由:他们透露通过采用它们来维护自己的偏见。关于性别刻板印象,在机器学习语言的方式中源于双重危险。 Babbel的计算语言,Kate McCurdy,Research作为[...]
自动化偏见:当机器了解性别时

去年,机械学习的大型创新占据了头条新闻的理由:他们透露通过采用它们来维护自己的偏见。关于性别刻板印象,在机器学习语言的方式中源于双重危险。 Babbel的计算语言学家,Kate McCurdy,作为算法缔结语义和语法类型的研究,以及这可能对所谓的人工智能以及我们应该考虑纠正这种趋势的意义。

那么让我们开始解释你的项目?

嗯,我正在寻找语法类型的词语(单词嵌入, 用英语)。单词的载体是一种应用于各种各样的自然语言处理技术。在这方面,它是一种算法,它基于以下单词来学习单词的含义 大约 她。近年来,我们在这方面看到了非常显着的发展。有几家大型搜索和公司,如Facebook和Google,正在使用这些技术。几年前,有这种新的算法允许非常快地训练新模型,从而表示看起来非常令人印象深刻的词语的含义。所以你可以让你松散 语料库 他将学习,例如,这一点 小狗, e 动物 是相关的,或者是相关的 苹果 e 香蕉 他们必须这样做,而无需明确教授这一点。这是非常强大的,并且正在许多技术应用中使用。但是,我们开始意识到他们的一些问题。

因为这些算法正在获得性别协会......

正确的。这项业务如下:与此同时,他们擅长学习相当实用的东西,因为这之间的关系 苹果 e 香蕉,他们也学会了这件事 它们很有用。基本上,他们正在学习陈述,我们可能不希望他们拥有。所以去年,几位研究人员出版了发现,例如,这些技术正在学习专业术语,如 商业, 桌子 e 工资,系统地近似与男性相关的单词,如 叔叔 e 父亲。男人的趋势。与房屋和家庭相关的术语的学习与与女性相关的术语有关。

其中一个已发布的搜索中有一种着名的出现。单词矢量最令人印象深刻的属性之一是他们可以发挥所谓的类比工作。在它中,你得到一个矢量模板并说,“男人是女性,因为国王是......”。然后你让它填补空白,就像你的多项选择问题一样,他回应 女王。令人惊叹,不是吗?但是,当你说“男人是女人作为飞行员的人来说是......”的时候,他会回应 空姐。这真的让人们思考。事实证明,在文本中的单词的统计可能性训练,它最终建立了一个充满这些词语的模型,我们不想看到真实的话。类型只是冰山一角。同一研究人员发现了与种族,民族名称等有关的有问题的协会

是的。

基本上,单词的载体学习可能最终成为极为问题的关联。特别是如果他们参与其他类型的应用程序。一名研究人员给出了一个非常透露的例子。想象一下,您在谷歌上工作,正在寻找一份计算机编程工作的候选人......

正确的!

让我们说你正在寻找当地大学或其他东西的候选人。但是,由于人们的名称也在文本中收到了这些算法正在处理的文本中,因此应用程序可以了解标记或约翰等名称与计算机编程比...更相关。 萨曼莎。因此,您可以将候选人放在名单中的顶部的男性名称。因此,如果您负责招聘并正在寻找候选人,这可以有效地影响您收到的结果。而这只是这些技术可能与现实生活中存在冲突的微妙形式之一,具有真正的风险。

与语法类型的交叉如何?英语是 um pouco 在这方面不太复杂,但可能有以下语言的影响 展示 gêneros gramaticais.

是否怀疑。嗯,我们正在讨论的问题来自其他研究人员的观察。我和在Babbel的小组我们正在研究你刚才所说的,就像这些技术一样与呈现语法类型的语言相互作用。在西班牙语,法语或德语,我们知道这个词 父亲 它没有用语义上引用这个人。我们知道这个词是男性的,因为,在德语的情况下,文章伴随着男性: Der Vater.。在西班牙语中, el padre.。然后这个问题的语义类型被放置在文章的性别旁边,他们自己的语法类型。这也延伸到对象。 桌子 它是德语的男性,但法语和西班牙语的女性。

有趣的是,非常明显的是,对于人类来说,性别引用中有某些逻辑。从历史上看有关联 其中许多人正在越来越争议。例如,在瑞典语中,最近创造了中性的性别代词, 母鸡。到处都是,人们在这方面反映了这一点。词语语法属的缺乏一致性 桌子 在德语和西班牙语中,在某种程度上揭示了这里没有普遍的真理。一张桌子没有类型。大多数物体也是如此。但我的小组发现了以下内容:这些矢量统计模型如何基于单词 大约 其他单词,如果你不及时纠正这个问题,你正在训练德语的模型,他们会学习 桌子 事实上,它是男性。将占据同样的语义空间 国家 e 兄弟。这发生在与语法男性相关的任何词。

然后,在德语,这个词 运动员 它有一个男性形式和女性: Der Sportler. e 死sportlerin。和 桌子 当模型学会这个词时,它将近似于男性化方式。但是,怎么样 桌子 是西班牙语的女性,该模型得知这个词属于女性语义空间,旁边 母亲 e 阿姨。这表明语言语言的任意属性,其中任何发言者都知道在桌子上没有任何真正的男性或女性 “除了你自己的心理协会之外,”但它恰好这些模型正在学习。这可能会影响他们在应用中的结果。

例如,您正在搜索产品建议的空间。你寻找一个朋友的礼物,具有女性名称。如果你看西班牙语,你会收到不同的结果,而不是你做德国研究 - 因为结果的性别特性在这两种语言中不同。这可以以几种微妙的方式发生,但如果您没有意识到发生了什么,则无法修复它。

在您的搜索中,您是否注意到信号指向可能的纠正干预措施?

解决这个问题的超级方式正在摆脱文章,对吧?只需让文章在培训数据并以某种方式告诉您时,他们没有提供任何重要信息。对我来说,这是一种纠正,适用于某些语言。但我们需要与其他语言进一步。例如,在德语中,文章不只携带类型的信息以及 案件。所以值得思考一种更复杂的方法。在我们的研究中,我们首先是展示概念证明的最简单和最明显的事情 - 可以训练模型而不会导致对语法类型的这些偏见。但我认为有必要更好地思考,因为不同的语言有不同的需求。这些单词的载体是良好的,英语发达且创新。通过这种方式,它们反映了我们拥有这种算法的镜头,接近英语单词的含义,但是,我们需要考虑其他语言的特定需求和属性,以便相关地雇用它们。

这是通过任何特定方式在Babbel中推动这里的工作吗?

嗯,我们正在研究使用语言学习语言技术的不同方式,对吗?所以,如果你有一个案例,某个词在英语中运作良好,而且不是西班牙语或其他语言 - 让我们说我们正在为那些学习西班牙语或德语的人创造文本了解的活动,我们询问哪套单词看起来更像其他单词 - 我们最终可以提供一些信息 错误的 如果我们无法预料到这种东西,那么。由于语法类型,一个模型可以缩短两个单词之间的语义距离,而不是另一种更重要的关系。

进一步进一步,对这些模型的关键分析最有趣的社会影响在哪里?

实际上使用所谓的人工智能技术的任何地方。我觉得她越来越多地进入我们的生活,以各种非常模糊的方式。很难确定其效果。事实上,在我们的研究中,我们只是突​​出一个可能是影响系统决策的数百或数千因素。这意味着你或我作为消费者或寻求的东西。

最近发表的其他有趣的研究透露,有与语义有关系统 图片。例如,之间的关联 女性 e 做饭 它是如此强大的是,对于在标签图像中训练的一些算法,如果你给了一个烹饪人的形象,他会说他是一个女人,如协会的力量。目前,这只是数据的结果。我认为很难想象 现在 所有这一切的重要意义。想想系统选择员工,寻找课程中的关键术语的算法。这是许多行业的常见做法。如果你不介意这个,那么这些特定的语言偏见可以影响获得更好位置的课程类型。

正确的。很明显。

这可能最终影响整个劳动力市场结构。它可能最终影响自动决策以任何类型的制度或结构能力使用的任何空间。如果某些东西倾向于一种晦涩难懂的技术,这将对消费者产生影响。毫无疑问,这是相关的。但这也可以用于所有机构能力。无论如何,对于如此模糊,很难预测特定的损害。然而,这正是一个逐个提取这些情况并指出可能存在股权的潜在因素如此重要。