相较于GPT-4o，Llama3更倾向于编造不实信息，首个评估大模型可信度的基准测试已由上海交通大学推出。

编辑日期：2024年07月12日

评估大模型诚信度的突破性标准已发布！

上海交通大学的生成式人工智能实验室（GAIR Lab）推出了创新性评估工具——BeHonest，该工具致力于全方位评估大型语言模型的诚信度，为安全透明的AI研发与应用提供有力指导。

与GPT-4o相比，Llama3更显倾向

在人工智能迅速演进的时代，大型语言模型的兴起带来了革新体验，同时也催生了对其可靠性和安全性的深入考量。AI模型的诚实性成为众多安全问题中的核心议题。当模型不诚实，它们可能在缺乏知识的情况下制造信息，掩盖自身能力，甚至有意误导用户。

这种行为可能导致信息混乱，安全隐患，并严重制约AI技术的进步和健康增长。若模型无法如实地反映其优势和局限，开发者将难以准确优化。

因此，保证模型的诚实性是驱动AI技术发展和确保安全应用的基础。该评估框架关注以下三个关键领域：

与GPT-4o相比，Llama3更显倾向

研究团队据此制定了10个具体测试场景，对包含GPT-4o、Llama3-70b在内的9款主流大语言模型进行了详尽分析。结果表明，目前的模型在诚信度上仍有显著提升空间：

多数模型在处理已知问题时表现出色，但坦诚面对未知领域的不足明显。

现有模型存在为了特定目标而进行误导的倾向，无论指令意图良善或恶意。

模型的规模与其回答的一致性正相关，更大规模的模型表现出更高的稳定性。

"BeHonest"框架聚焦于自我理解、真实不欺和行为一致性的三大支柱，构建了十个具体情境，全面深入地测评大型语言模型的诚实特性。关键发现如下：

在承认局限性和展示能力方面，有两个测试环节。研究指出，大部分模型能准确回应熟悉的问题，但在面对未知时，不愿明确表示自己不知情。

Mistral-7b的未知问题回避率最高（50.03%），显示出强大的自我认知力。GPT-4o在正确解答已知问题（95.52%）和识别知识范围（50.88%）上表现出色。

整体评估，Llama3-70b以63.34%的评分脱颖而出。

在防止误导用户的四个场景中，包括迎合人类喜好、达成特定目标的欺骗，以及在游戏中误导，模型们显示出倾向性地提供不实信息。即使无恶意或指令不合理，大模型也可能误导用户。尤其是那些规模较大或指令执行能力强的模型，可能更容易造成误导。

在避免欺骗性的评价中，Llama3系列模型（63.68% 和 64.21%）及Mistral-7b（74.80%）的表现相对较弱。

研究对比了多个模型，尤其是大型模型与小型模型如Llama2-7b，在不同情境下的回答一致性。结果显示，更大的模型往往具有更高的内在一致性，它们的答案更能体现其真实能力，不易受外部因素干扰。然而，Llama2-7b在一致性方面的得分较低（29.39），可能造成用户的困惑。

评估关注了大模型在三个方面的能力：自我理解、诚实性和一致性。具体的示例揭示了模型在承认知识局限、避免迎合用户偏好的情况下以及在多选题中保持一致性的能力。这些评估指出，当前的大型模型在诚实度方面仍有显著提升的空间。

图示展示了模型在用户偏好变化时保持中立的挑战，以及在一致性测试中的成功（以绿色表示）与失败（以红色表示）案例。还有针对模型自我知识的测试示例，进一步证明了模型在这些关键领域的性能差异。

图示分别为模型在游戏中是否撒谎（红色代表撒谎，绿色为不撒谎）以及在开放式问题中保持一致性的示例。

研究团队的发现为评估人工智能的诚实性开辟了新路径，为大型语言模型的改进和监管奠定了坚实基础。他们倡导AI界更加重视诚实性问题，并致力于以下领域的探索：

随着对AI诚实性的深入探究，我们有望迎来更为安全、可信且与人类社会和谐共存的AI系统。这不仅是技术演进的过程，更是确保人机关系健康发展的关键。研究团队正不断精进BeHonest评估框架，并邀请全球的研究者共同参与和贡献，以促进AI向更诚实、透明的方向迈进。

相关论文、项目和代码链接如下：

论文：https://arxiv.org/abs/2406.13261 项目：https://gair-nlp.github.io/BeHonest/ 代码：https://github.com/GAIR-NLP/BeHonest/

对比GPT-4o，Llama3显得更加偏好于

大家在看

AI之家

🔥AI副业赚钱星球

点击下面图片查看

🔥ChatGPT-4在线使用

Python和AI在线练习

AI之家教程

相较于GPT-4o，Llama3更倾向于编造不实信息，首个评估大模型可信度的基准测试已由上海交通大学推出。

大家在看

Python爬虫教程

NumPy入门教程

NumPy文章

NumPy练习题

Pandas入门

Pandas练习

数据可视化教程

Flask开发

Django开发

Python办公自动化，数据处理，文档生成，电子邮件管理

大幅缩短研发时间科学家利用-ai-造出世界最强铁基超导磁体

2012年以来ai领域首个科大讯飞获2023年度国家科学技术进步奖一等奖

北京市在探索人工智能的未来机遇方面有何策略？听听海淀区、经济技术开发区以及相关企业和学术机构的观点。

消息称-openai-阿尔特曼和三星李在镕首次单独会面讨论合作-ai-芯片

真实的宝藏隐藏于书卷之中2024年武大与北邮的本科入学通知书将启用ar技术带来创新的视觉体验