3

测试四个顶级系统,科学家发现AI的仇恨言论审核能力依然很差

 3 years ago
source link: http://www.mittrchina.com/news/detail/5839
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
麻省理工科技评论-测试四个顶级系统,科学家发现AI的仇恨言论审核能力依然很差
测试四个顶级系统,科学家发现AI的仇恨言论审核能力依然很差
尽管人工智能(AI)技术领域在最近取得了进步,但它依然在大多数基本应用上暴露出很多问题。在一项新的研究中,科学家们对四个顶级人工智能系统的仇恨言论检测能力进行了测试,他们发现所有系统在识别恶意、以及
280

尽管人工智能(AI)技术领域在最近取得了进步,但它依然在大多数基本应用上暴露出很多问题。

在一项新的研究中,科学家们对四个顶级人工智能系统的仇恨言论检测能力进行了测试,他们发现所有系统在识别恶意、以及无害言论上都存在着不同程度的问题。

v2-41bbf078c1f29faf8192d8a0f2cf4d29_720w.jpg

(来源:公众号公众图库)

这一结果并不令人吃惊,因为构建可以理解自然语言细微差异的人工智能是一件非常困难的工作。然而,研究人员们诊断问题的方式却是非常重要的。

为了更加精确地找出系统故障的原因,研究人们针对仇恨言论的方方面面制定了 29 种不同的测试,这会让我们更容易地去了解克服系统缺陷的方法。同时,这些测试也正在帮助一项商业服务提升其人工智能的性能。

由牛津大学以及阿兰・图灵研究所科学家所领衔的论文作者们,对 16 家监管网络仇恨言论的非营利组织的雇员进行了采访。

研究团队利用这些采访将仇恨言论划分为了 18 个不同的种类,仅侧重于英语以及基于文本的仇恨言论,其中包括贬损用语、诋毁性文字以及威胁性词汇。

他们还发现了 11 种经常让人工智能监管者产生误判的不含仇恨情绪的情形,其中包括在不冒犯他人的情况下使用脏话、被目标群体所接纳的诋毁性词语,以及引用原始仇恨言论对仇恨言论进行谴责的行为(也被称为反面论证)。

研究人员针对 29 种不同情况中的每一种编写了数十个范例,并且使用了像 “我讨厌【某人】” 以及 “对我来说,你就是个【诋毁性词语】” 这样的 “模板” 语句,从而为七个受保护的群体生成相同的范例集合 —— 这些人都受美国法律的保护而不会遭到歧视。研究人员对被称作 HateCheck 的最终数据集进行了开源处理,该数据集中共含有近 4000 个范例。

之后,研究人员又对两项受欢迎的商业服务进行了测试:谷歌和 Jigsaw 的 Perspective AI、以及 Two Hat 的 SiftNinja。这两个服务都允许客户标记出帖子以及评论中带有仇恨色彩的内容。

Perspective 的用户包括 Reddit 以及像《纽约时报》、《华尔街日报》这样的新闻机构,根据其所处理的有害信息,人工智能服务会对帖子以及评论进行标记,以供人工审查使用。

SiftNinja 的检测标准过于宽松,进而没有识别出几乎所有的变化,而 Perspective 的标准则过于严格。它检测出了 18 个仇恨种类中的大部分,但同时也标记出了许多像被接纳的诋毁性词语以及反面论证这样的不含仇恨情绪的情况。

研究人员在测试谷歌的两个学术模型时也发现了相同的模式,这些模型代表了业界中顶级的语言人工智能技术,它们同时也是其它商业性内容审核系统的基础。学术模型还显示出,受保护群体之间的表现并不相同 —— 有些群体的仇恨程度比其它群体更容易被错误归类。

测试结果指明了当今人工智能仇恨言论检测方面最具挑战性的一个方面:审核太少,没法解决问题;而审核太多,就会删除掉边缘化群体用来强调和保护自己的话语。

牛津大学互联网研究院的博士候选人保罗·罗特格(Paul Röttger)是本篇论文的共同作者。罗特格表示,“突然之间,你就会成为那些在仇恨言论中首当其冲的群体的惩罚者。”

Jigsaw 的首席软件工程师露西·瓦瑟曼(Lucy Vasserman)表示,Perspective 利用人工审查来进行最终决策,进而克服了这些局限性。但是,这种方法无法扩展至更加庞大的平台上。当前,Jigsaw 正在开发一种基于 Perspective 的不确定性的,同时可以对帖子及评论变更优先顺序的系统。该系统可以自动移除带有仇恨色彩的内容,并将边缘信息标记出来。

瓦瑟曼说道,新研究最令人激动的地方在于,它为这种顶尖技术提供了一种细致的评估方式。她还表示,“论文中强调了的许多东西,例如对那些模型来说是一个挑战的被人们所接纳的诋毁性词语。我们早就认识到了它们的存在,但却一直很难对其进行量化处理。” 目前,Jigsaw 正在使用 HateCheck 来更好地了解自身模型间的差异,以及需要继续改进的地方。

学术界也对此次研究的成果感到兴奋。华盛顿大学语言人工智能研究员马丁·萨普(Maarten Sap)表示,“这篇论文为我们评估行业中的系统提供了一个优良且干净的资源,它会让企业和用户不断地去提升自己的系统。”

罗格斯大学社会学助理教授托马斯・戴维森托马斯·戴维森(Thomas Davidson)对此表示认同。戴维森表示,语言模型的局限性以及杂乱无章的语言现象意味着,人们总会在识别仇恨言论的过程中对过松或过紧的问题进行取舍。他还说道,“HateCheck 数据集让这些取舍变得可视化了。”


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK