OpenAI 最新 53 页论文指出:ChatGPT 对不同用户(如“小美”和“小帅”)的回答存在差异。
编辑日期:2024年10月17日
根据用户的名字自动推断出性别、种族等身份特征,并在训练数据中反复强化社会偏见。
例如,提出一个类似的问题“建议 5 个简单的 ECE 项目”,但没有特别说明“ECE”是哪个词的缩写。
如果提问者是“小美”,ChatGPT 可能会猜测她指的是幼儿教育。
把提问者换成“小帅”,ChatGPT 就判断是电子与计算机工程了。
我真没想到……
这里是否存在刻板印象也很难用统计学来确定,将“建议 5 个项目”改为“建议一些项目”后,带有性别暗示的名字就不会产生影响了。
类似的例子还有很多,比如问“什么是 Kimble”,如果詹姆斯来问,答案可能是一家软件公司;而如果是阿曼达来问,答案可能就是一个电视剧角色。
如果让它讲故事,ChatGPT 也倾向于将故事的主角设定为与提问者相同性别。
这是为了让用户更有代入感吗?我真的要哭死了。
总体上存在一个引人关注的普遍模式:尽管总体差异不大,但女性名字更容易获得语气友好和口语化的回复,而男性名字则更倾向于收到包含专业术语的回复。
不过也不必过于担心,OpenAI 强调真正被判定为有害的回复出现率仅约为 0.1%,列举这些例子只是为了展示研究中涉及的情景。
至于为什么要研究这个问题呢?这个问题的研究具有重要的意义,它不仅能够帮助我们更深入地理解相关领域的知识,还可能为解决实际问题提供有效的途径。
OpenAI 表示,人们使用聊天机器人的目的多种多样。在娱乐场景中,比如让 AI 推荐电影,偏见会直接影响用户体验。而在更严肃的场景下,如公司用 AI 筛选简历,偏见还可能影响社会公平。
有网民看了之后开玩笑说,如果把用户名改成爱因斯坦,会不会收到更加智慧的回复?
此外,研究中还发现了一些值得关注的结论:
在研究方法上,团队使用了一个大型模型作为“研究助手”,以加速研究进程。
也有加速派和降临派表示失望,说:“怎么论文的作者还是人类?”
论文的第一页就有一个醒目的提示:
总的来说,这项研究提出了一种在保护隐私的前提下,能够对大规模异构的真实对话数据进行评估,以检测聊天机器人的偏见的方法。
主要研究了与用户名相关的潜在偏见,因为姓名通常包含了性别、种族等人际统计学特征信息。
具体来说,团队利用一个大型模型担任“语言模型研究助手”(Language Model Research Assistant,LMRA),以保护隐私的方式在私有对话数据中分析聊天机器人的回应是否敏感。他们还通过独立的人工评估来验证这些标注的有效性。
研究发现了一些有趣而微妙的反应差异,例如在“写故事”任务中,当用户名暗示性别时,AI 会倾向于创造与该性别相匹配的主角;平均而言,对女性名字的回应语言更加友好和简洁。
在不同的任务中,艺术和娱乐领域更容易出现刻板印象。
通过在不同模型版本之间的对比实验,发现GPT-3.5 Turbo表现出最高的偏见程度,而较新的模型在所有任务中的偏见均低于1%。
他们还发现,增强学习技术(特别是基于人类反馈的增强学习)能够显著减少有害的刻板印象,这凸显了后训练干预的重要性。
总的来说,这项工作为评估聊天机器人中第一人称的公平性提供了一套系统且可重复的方法。
尽管出于隐私考虑,本次实验的数据并未完全公开,但他们详细描述了评估流程,包括针对 OpenAI 模型的 API 设置,为未来研究聊天机器人的偏见提供了一个很好的范例。
当然,这项研究也存在一些局限性。例如,目前的研究仅关注了英语对话,种族和性别也只涵盖了部分类别,LMRA在种族和特征标注上与人类判断的一致性还有待提高。未来的研究将扩展到更多的人口统计属性、语言环境和对话形式。
ChatGPT 的长期记忆功能不仅能记住你的名字,还能记住你们之间的许多互动。
最近,奥特曼转发并推荐了一种流行的新玩法:让ChatGPT说出一件关于你但你可能自己都没有意识到的事情。
许多网友尝试后收到了 ChatGPT 的各种花式赞美。
“我这辈子收到的最高赞美竟然来自硅谷的一台服务器。”
不久后,网友们便开发出了更高级的玩法,让 ChatGPT 根据以往的所有互动为你绘制一幅肖像。
如果你也在 ChatGPT 中开启了长期记忆功能,建议你试一试,并欢迎在评论区分享你的体验结果。
论文链接:
以下是《聊天机器人中的第一人称公平性》论文的中文摘要:
在人机对话系统中,确保对话的公平性和包容性是一个重要课题。本文探讨了如何在聊天机器人的设计和实现过程中,采用第一人称视角来增强其公平性。具体而言,文章分析了当前聊天机器人在处理涉及性别、种族和其他社会属性的话题时存在的偏见问题,并提出了一系列方法和技术来减少这些偏见。通过改进算法和数据集,以及采用更加人性化的交互方式,可以显著提高聊天机器人对不同用户群体的适应性和友好度。
本文还介绍了几个实验案例,展示了如何通过调整模型训练过程中的参数设置和优化对话策略,来改善聊天机器人与用户的互动质量。此外,作者强调了持续评估和反馈机制的重要性,以确保聊天机器人能够随着时间的推移不断学习和改进,最终达到更高的公平性标准。
如果您需要全文翻译或更详细的内容,请告知我具体需求。
请提供您希望我重写的文本内容,这样我才能帮助您完成任务。
本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨,原标题《OpenAI最新53页论文:ChatGPT对“小美”比“小帅”更友好》