科学家发现,常见的人工智能模型基于方言表达了一种隐蔽的种族主义形式——主要针对说非裔美国人英语(AAE)的人。
在8月28日发表在《自然》杂志上的一项新研究中,科学家首次发现证据表明,包括OpenAI的GPT3.5和GPT-4在内的常见大型语言模型,以及meta的RoBERTa,表达了隐藏的种族偏见。
科学家们复制了之前旨在检查人类隐藏的种族偏见的实验,测试了12个人工智能模型,要求它们根据“说话者”的说话模式来判断他们的说话模式——科学家们根据AAE和参考文本起草了这些模式。与AAE联系最密切的三个最常见的形容词是“无知”、“懒惰”和“愚蠢”,而其他描述词包括“肮脏”、“粗鲁”和“咄咄逼人”。人工智能模型没有被告知说话人的种族。
接受测试的人工智能模型,尤其是GPT-3.5和GPT-4,在被直接问及对非裔美国人的看法时,甚至用“聪明”等积极属性来描述非裔美国人,从而掩盖了这种隐蔽的种族主义。
科学家们说,虽然从人工智能训练数据中得出的关于非裔美国人的更公开的假设不是种族主义,但更隐蔽的种族主义在大型语言模型(llm)中表现出来,实际上通过表面上模糊语言模型在更深层次上保持的种族主义,加剧了隐蔽和公开刻板印象之间的差异。
研究结果还表明,法学硕士中公开的种族主义和隐蔽的种族主义之间存在根本的区别,减轻公开的刻板印象并不能转化为减轻隐蔽的刻板印象。实际上,针对显性偏见进行训练的尝试掩盖了仍然根深蒂固的隐性偏见。
科学家们在论文中说:“随着委托给语言模型的决策风险的增加,人们也越来越担心,它们反映甚至放大了它们所接受训练的数据中编码的人类偏见,从而使对种族化、性别化和其他少数群体的歧视持续存在。”
对人工智能训练数据中存在偏见的担忧是一个长期存在的问题,尤其是在人工智能技术得到更广泛应用的情况下。之前对人工智能偏见的研究主要集中在公开的种族主义事例上。一种常见的测试方法是命名一个种族群体,在训练数据中找出对他们的刻板印象的联系,并分析对该群体的任何偏见观点的刻板印象。
但科学家们在论文中指出,社会科学家们认为,在当今的美国,存在着一种更为微妙的“新种族主义”——现在它正在进入人工智能领域。他们说,一个人可以声称不看肤色,但仍然对种族群体持负面看法——这通过隐蔽的种族话语和实践维持了种族不平等。
正如论文所发现的那样,这些信念框架正在以偏见AAE演讲者的形式进入用于培训法学硕士的数据中。
这种影响很大程度上是因为,在ChatGPT等人工训练的聊天机器人模型中,说话者的种族不一定会在讨论中被披露或提及。然而,人们的地区或文化方言的细微差异并没有在聊天机器人上消失,因为它所训练的数据具有相似的特征。当人工智能确定它正在与一个AAE演讲者交谈时,它会从训练数据中表现出更隐蔽的种族主义假设。
“除了代表性伤害,我们指的是AAE演讲者的有害代表性,我们还发现了大量分配伤害的证据。科学家们补充说:“这是指对AAE使用者的资源分配不公平,并且增加了语言技术使AAE使用者在AAE上表现更差,错误地将AAE归类为仇恨言论或将AAE视为错误英语的已知案例。”“所有语言模型都更有可能将低级职位分配给AAE的使用者,而不是SAE的使用者,并且更有可能将AAE的使用者定罪,并判处AAE的使用者死刑。”
这些发现应该会促使企业更加努力地减少法学硕士课程中的偏见,也应该促使政策制定者考虑在可能出现偏见的情况下禁止法学硕士课程。科学家们在一份声明中说,这些情况包括学术评估、招聘或法律决策。人工智能工程师还应该更好地理解种族偏见在人工智能模型中的表现。
本文来自作者[佘浩圆]投稿,不代表荣品号立场,如若转载,请注明出处:https://hdrpsteel.com/kjsj/202501-13652.html
评论列表(4条)
我是荣品号的签约作者“佘浩圆”!
希望本篇文章《人工智能模型相信在民权运动之前关于非裔美国人的种族主义刻板印象,并且它们“在面对它时试图隐藏它”》能对你有所帮助!
本站[荣品号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览: 科学家发现,常见的人工智能模型基于方言表达了一种隐蔽的种族主义形式——主要针对说非裔美国人英语(AAE)的人。在8月28日发表在《自然》杂志上的一项新研究中,科学家首次发现...