收起左侧
发新帖

研究发现,人工智能对不良言论的审核能力依然很糟糕

时间:2021-8-7 18:50 0 3248 | 复制链接 |

马上注册,结交更多好友

您需要 登录 才可以下载或查看,没有账号?立即注册

x
尽管人工智能技术领域在最近取得了进步,但它依然在大多数基本应用上暴露出很多问题。在一项新研究中,科学家们对四个顶级人工智能系统的仇恨言论检测能力进行了测试,他们发现所有系统在识别恶意、以及无害言论上,都存在着不同程度的问题。
DSC0000.jpg




这一结果并不令人吃惊,因为构建可理解自然语言细微差异的人工智能,是一件非常困难的工作。然而,研究人员们诊断问题的方式却非常重要,为更加精确地找出系统故障的原因,研究人们针对仇恨言论的方方面面制定了 29 种不同的测试。这能让我们更容易了解克服系统缺陷的方法,同时,这些测试也正在帮助一项商业服务提升其人工智能性能。
由牛津大学以及阿兰・图灵研究所科学家所领衔的论文作者们,对 16 家监管网络仇恨言论的非营利组织的雇员进行了采访。研究团队利用这些采访内容,将仇恨言论划分为 18 个不同种类,并且仅侧重英语以及基于文本的仇恨言论,其中包括贬损用语、诋毁性文字以及威胁性词汇。
他们还发现了 11 种经常让人工智能监管者产生误判的不含仇恨情绪的情形,其中包括在不冒犯他人的情况下使用脏话、被目标群体所接纳的诋毁性词语,以及引用原始仇恨言论对仇恨言论进行谴责的行为等。
据悉,该团队针对 29 种不同情况中的每一种编写了数十个范例,并使用了类似“我讨厌XX” 以及 “对我来说,你就是个XX” 的 “模板” 语句,从而为 7 个受保护的群体生成相同的范例集合,这些群体均受美国法律保护所以不会遭到歧视。研究人员对被称作 HateCheck 的最终数据集进行了开源处理,该数据集中共含有近 4000 个范例。
之后,他们又测试了两项受欢迎的商业服务:谷歌和 Jigsaw 联合研发的 Perspective AI、以及 Two Hat 的 SiftNinja。这两个服务都允许客户标记出帖子以及评论中带有仇恨色彩的内容。Perspective 的用户包括 Reddit 以及像《纽约时报》《华尔街日报》这样的新闻机构。据其所处理的有害信息显示,人工智能服务会对帖子以及评论进行标记,以供人工审查使用。
SiftNinja 的检测标准则过于宽松,因此未识别出几乎所有的变化。而 Perspective 的标准则过于严格,它检测出了 18 个仇恨种类中的大部分,但同时也标记出了许多像被接纳的诋毁性词语、以及反面论证这类不含仇恨情绪的情况。
研究人员在测试谷歌的两个学术模型时也发现了相同的模式,这些模型代表了业界中顶级的语言人工智能技术,它们同时也是其它商业性内容审核系统的基础。学术模型还显示,受保护群体之间的表现并不相同,有些群体的仇恨程度比其它群体更容易被错误归类。
测试结果也指出了目前在人工智能仇恨言论检测方面最具挑战性的一个问题:即审核太少,没法解决问题;而审核太多,就会删除掉边缘化群体用来强调和保护自己的话语。牛津大学互联网研究院的博士候选人保罗・罗特格(Paul Röttger)是本篇论文的共同作者,其表示,“突然之间,你就会成为那些在仇恨言论中首当其冲的群体的惩罚者。”
Jigsaw 的首席软件工程师露西・瓦瑟曼(Lucy Vasserman)表示,Perspective 利用人工审查来进行最终决策,进而克服了这些局限性。但是,这种方法无法扩展至更加庞大的平台上。当前,Jigsaw 正在开发一种基于 Perspective 的不确定性的,同时可以对帖子及评论变更优先顺序的系统。该系统能自动移除带有仇恨色彩的内容,并将边缘信息标记出来。
瓦瑟曼说道,新研究最令人激动的地方在于,它为这种顶尖技术提供了一种细致的评估方式。她还表示,“论文中强调了的许多东西,例如对那些模型来说是一个挑战的、但是被人们所接纳的诋毁性词语。我们早就认识到了它们的存在,可却一直很难对其进行量化处理。” 目前,Jigsaw 正在使用 HateCheck 来更好地了解自身模型间的差异、以及需要继续改进的地方。
学术界也对此次研究的成果感到兴奋,华盛顿大学语言人工智能研究员马腾・萨普(Maarten Sap)表示,“这篇论文为我们评估行业中的系统提供了一个优良且干净的资源,它会让企业和用户不断地去提升自己的系统。”
罗格斯大学社会学助理教授托马斯・戴维森(Thomas Davidson)对此表示认同。戴维森表示,语言模型的局限性以及杂乱无章的语言现象意味着,人们总会在识别仇恨言论的过程中对过松、或过紧的问题进行取舍。他还说道,“HateCheck 数据集让这些取舍变得可视化了。”
-End-
原文:
https://www.technologyreview.com/2021/06/04/1025742/ai-hate-speech-moderation/


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /2 下一条

快速回复 返回列表 返回顶部