跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

深度探讨大型语言模型的“虚构现象”:一篇详尽的博客揭示了防范策略、成因分析及检测方法,仅提供重写后的内容,全程使用中文表述。

编辑日期:2024年07月15日

翁荔,一位华裔科学家从OpenAI团队,近期在其博客中引入了大型语言模型(LLM)的外在幻觉(extrinsic hallucination)概念。这一理论区分了模型生成与现实脱节、虚构、不一致或无意义内容的情况。他具体指出,LLM的“幻觉”表现为模型创造不真实的内容,这些内容并未基于提供的上下文或现实世界知识。

幻觉现象因而被划分为两类:

翁荔先前提出的Agent公式——Agent=大模型+记忆+主动规划+工具使用——也受到了部分网友的高度评价,被誉为关于Agent的卓越论述。

在这篇详尽探讨大模型幻觉的博文中,内容丰富,引用了多达24篇参考资料:

翁荔特别关注外在幻觉,深入剖析了三个核心议题:幻觉产生的原因、幻觉检测以及防止幻觉的策略。

想要了解更多详情,可查阅原文链接:

当构建可供部署的大型语言模型(LLM)时,通常涉及预训练和微调两个关键步骤,以确保模型的对齐和性能优化。预训练数据集广泛涵盖所有可获取的书面世界知识,因而数据量极其庞大,常通过抓取公开互联网获取。然而,这种方法可能导致信息的过时、缺失或错误,若模型仅依赖最大化对数似然来学习,就可能出现错误记忆。

为了提升模型的特定技能,如遵循指令,通常会运用监督微调(SFT)和人类反馈强化学习(RLHF)对预训练模型进行微调。尽管微调阶段所需计算资源相对较少,但引入新知识的效果是否可靠仍有争议。

近期,Gekhman等人在一项研究中关注了微调新知识对LLM可能引发的“虚构现象”,即模型生成不实信息的问题。他们发现,模型学习与现有知识冲突的新知识时,学习速度变慢,且学成后更容易产生虚构现象。

研究中的图像展示了某些引人深思的观察,其中验证集的准确性被用来象征性地指示虚构现象的程度:

这些来自Gekhman等人的发现揭示了使用监督微调更新LLM知识可能带来的风险。

为了量化语言模型中的误导现象,Lee等人在2022年创建了FactualityPrompt,一个包含事实与非事实提示的新基准数据集。该数据集利用维基百科条目作为事实依据,这些条目源自可靠的FEVER数据集。同时,通过tf-idf或句子嵌入相似度挑选出相关句子作为补充。

深入研究大型语言模型的“虚构现象”

在评估模型的误导性时,采用了两项关键指标:错误的实体识别率(NE Error Rate)和蕴含比例(Entailment Ratios)。高NE错误率和低蕴含比例意味着更高的事实准确性。研究显示这两项指标与人类评估一致,且大模型在这项测试中表现出色。

Min等人于2023年提出的FActScore则将长文生成分解成单个事实,逐个与维基百科等知识库对比验证。它计算模型生成内容中被知识源支持的句子比例(精确度),并取所有提示的平均精确度作为FActScore。

在一项人物传记生成的任务中,多种事实验证方法被比较,发现采用检索增强的方法比无背景的LLM更具一致性。然而,最佳增强策略的选择会依赖于具体模型。

有趣的是,Wei等人在2024年提出了SAFE,一个搜索增强的事实性评估器。与FActScore不同,SAFE利用语言模型作为代理,通过多步迭代进行谷歌搜索查询,并根据搜索结果判断事实的真伪。

在每一轮中,代理基于待验证的事实及之前的搜索结果生成新查询。经过多次迭代后,模型分析搜索结果来决定事实是否得到支持。

实验显示,SAFE方法在成本上比人工注释低20倍,但在效果上却更胜一筹,达到了72%的人类一致性,并在分歧中76%的情况下优于人类。评估SAFE的方法是运用F1@K指标,尤其对于长篇且事实性的模型回应,要求同时具备精度和召回率,确保响应全面准确。F1@K指标的定义如下:

[图表省略]

此外,Chern等人在2023年提出的FacTool遵循标准事实核查流程,能检测各种任务中的事实错误,如基于知识的问答、代码生成和科学文献审核。其工作流程包含以下步骤:

[图表省略]

Manakul等人同年的研究则推出了SelfCheckGPT,该方法依赖于对黑盒LLM的多个样本进行一致性检查,以发现事实错误。由于SelfCheckGPT仅需黑盒访问和不依赖外部知识库的样本,因此无需灰盒事实核查中的令牌级别logprob信息。

该技术通过多种指标,如BERTScore、NLI和提示(询问真实性),来评估模型响应与其他随机样本的一致性。在测试GPT-3生成的WikiBio段落时,采用提示的SelfCheckGPT表现最为出色。

大型语言模型在应对未知或难以回答的问题时,有时会产生不真实的答案,这一现象被称为“虚构现象”。为了评估模型在这种状况下的真实性, TruthfulQA(由Lin等人于2021年提出)和SelfAware(Yin等人于2023年提出)两个基准测试应运而生。前者通过设计基于人类常见误解的对抗性问题来测试模型,后者则关注模型是否能识别其知识的局限性。

在TruthfulQA中,包含817个涉及38个主题的问题,如健康、法律、金融和政治,旨在挑战模型的准确性。最佳的LLM在此测试中的正确率仅为58%,远低于人类的94%。研究表明,大型模型更容易受常见误解影响,但在其他非对抗性的事实评估中并未表现出相同趋势。

以GPT-3在TruthfulQA中的错误回答为例:

[图片]

Yin等人2023年的SelfAware研究关注模型是否能意识到自己知道或不知道的信息。该研究包含1032个无法回答的问题和2337个可回答的问题,涵盖五种类型。无法回答的问题可能源于科学争议、未来预测、主观判断或哲学上的多元观点等。

他们将区分可回答与不可回答问题视为二元分类任务,使用F1分数和准确率来衡量模型性能,结果显示,更大规模的模型在处理此类任务时更出色。

评估大型语言模型对未知知识理解程度的一个方法是衡量其输出的不确定性。在一些多项选择题测试(如MMLU、TruthfulQA、QuALITY、LogiQA)中,研究表明这些模型能准确估计答案的正确性概率,预测概率与真实答案的出现频率相吻合。

然而,经过RLHF微调的模型可能会降低校准性能,但增加采样温度可以改善这一情况。

Lin等人在2022年推出了CalibratedMath任务集,这是一系列程序生成的数学问题,不同难度,用于检验模型对输出概率的校准程度。模型需要对每个问题给出数值答案以及相应的置信度评分,涉及三种概率类型。

Agrawal等人的2023年研究深入剖析了大型语言模型产生的虚幻引用现象,如虚假的书籍、文章和论文标题。他们运用一致性检查的直接和间接查询方法来检测这些幻觉,多次运行检查以确保在T>0时的一致性。

直接查询让模型判断生成的引用是否真实,而间接查询则询问关于引用的额外信息,如作者身份。

研究发现,相比于反复查询同一作者的信息来验证参考资料,采用间接查询的方法更能确保一致性,并能降低出现误导性信息的可能性。实验结果显示,这种方法的优势在于增强大模型的能力,同时减少虚幻现象的产生。

为了提高大型语言模型的准确性,人们探索了一系列策略,如引入外部知识库、特殊采样技术和对齐微调。不过,这里我们不涉及那些依赖神经元编辑来减少虚幻现象可解释性的技术。

检索增强生成(RAG)是一个常用的技术,它首先查找相关信息,随后利用附加的背景资料指导生成过程。

Gao等人在2022年提出的Retrofit Attribution using Research and Revision(RARR)框架,通过修改归因,使得LLM能够事后支持对外部证据的解释。

对于模型生成的文本x,RARR执行两步操作,产生修订版的文本y和一份归因报告A:

[图:深入解析大型语言模型的“虚构现象”]

评估修订后的文本y时,归因准确性和信息保留同等关键。

归因程度通过识别源的归因得分(AIS)来量化,该得分反映了y中内容源于A的比例。可以借助人工标注或NLI模型估算自动AIS分数。

信息保留则指y保留了x原始内容的程度,使用Previntent×PrevLev指标度量,其中Previntent需人工标注,而PrevLev基于字符级别的Levenshtein编辑距离。RARR在保持平衡性能上优于基准,尤其是在信息保留方面。

同样采用检索和编辑策略,Mishra等人在2024年提出的FAVA(事实验证与增强知识)会检索相关文献,然后编辑模型输出以消除虚幻错误。FAVA模型包含一个检索组件和一个编辑组件。

针对大型语言模型的“虚构现象”,有一篇深入研究的文章。编辑增强技术被用来优化模型输出,其中编辑模型需进行微调。该技术通过识别并分类各种类型的错误,以创建合成训练数据,方法是在语言模型的生成过程中插入错误。每个样本包含原始的维基百科段落(作为上下文c)、带错的LM输出(y)和修正后的正确输出(y*)。

另一方面,He等人在2022年提出的RR方法依赖检索相关外部知识,但无需额外编辑步骤。RR的检索机制不使用搜索查询驱动模型,而是采用分解的CoT(思辨与转换)提示。

此外,Self-RAG(Asai等人,2024)提出了一种端到端训练语言模型的方法,让模型能够通过生成任务结果和特殊的反思标记来不断反思其自身的生成过程。

研究团队构建了一个评估和生成模型的监督数据集,借助GPT-4的提示功能,随后他们将这个数据集精简到一个内部模型中,以降低推断成本。在无须外部信息检索的情况下,他们提出了一个利用模型自身进行验证和修正的机制,旨在减少错误的生成内容。

Dhuliawala等人于2023年提出的Chain-of-Verification (CoVe) 方法,是一种基于行动序列的规划和验证策略。CoVe主要包括四个关键步骤:

1)整合:与步骤2相结合,其中少量示例的结构为(回复,验证问题,验证答案);但潜在问题是原始回复在上下文环境中,可能导致模型重复相同的错误生成。

2)分步处理:将验证计划与执行步骤分开,确保不影响原始回复。

3)细分:针对每个验证问题单独作答。例如,对于长段落的生成结果,如果有多个验证问题,将逐个解答。

4)细分加修订:在细分执行验证后加入“交叉核对”步骤,依据基线回复、验证问题及其答案来实施条件约束,以识别不一致之处。

CoVe的架构设计考虑到了长验证链可能导致的重复错误生成问题,因为初始的错误响应仍存在于上下文中,可能在新的生成过程中被复现。而独立回答每个验证问题被证实比长段落生成更有效。

CoVe 实验揭示了一些引人入胜的洞察。2023年,Sun等人推出了RECITE技术,该技术利用复述作为桥梁,旨在增强模型产出事实的准确性并降低虚幻内容的产生。其核心思想是将Transformer的记忆功能转化为信息检索工具。在RECITE的工作流程中,模型首先复述相关资料,随后基于此生成最终输出。借助少量示例的上下文提示,模型可学会复述,接着再依据复述内容生成答案。进一步地,该方法还能与自洽性集成策略协同,处理多轮问答任务,利用多个采样结果。

研究表明,生成的复述质量可比肩BM25检索模型,但在使用实际段落时仍有提升空间。据错误分析,约7%-10%的情况下,虽然复述无误,但模型未能提供正确答案;约12%的问题中,即便复述有误,模型仍能给出准确回应。

Lee等人在2022年的FactualityPrompt基准测试中发现,尽管核采样增加了输出的多样性和减少了重复,但其表现仍逊色于贪婪采样。

Li等人在2023年提出的Inference-Time Intervention (ITI)通过逐层线性检测激活状态,探究了注意力头与事实准确性之间的关联,旨在辨别真实与虚构的输出。

研究显示,许多注意力机制的效能并不优于随机选择,但部分机制展现出了优秀的性能。为了提升推理时的事实准确性,ITI会在识别出具有高线性探测真实性的稀疏注意力头后,调整顶级K个头部的激活状态,使其朝向“真实”方向发展。相关图像如下:

Lee等人的2022年研究提出了两项增强事实训练的策略。

随后,Lin等人于2024年推出了FLAME,一种结合SFT和RLHF的聚焦事实性对齐训练方法。

之前有研究表明,新增知识的微调可能产生误导性信息,而RAG的监督数据包含了大型语言模型(LLM)未掌握的数据。

方法一:将RAG样本作为正面实例,原模型生成内容作为负面实例,构成RM数据集。

方法二:利用FActScore作为评估事实性的奖励信号。

为防止对齐训练期间未知知识不当地传授给模型,提议使用模型生成的回答创建SFT/DPO数据集。

Tian&Mitchell的2024年工作“事实性调整”也涉及微调语言模型以增强事实准确性。他们尝试了多种方法评估模型样例中的原子声明的真实性,随后执行DPO。

事实性调整流程如下:

模型生成的示例任务可以是“撰写Yo-Yo Ma的简介”。为了验证其真实性,有两种自动化方法:

一种基于参照,涉及(a)提取关键事实,(b)对比维基百科等可靠来源,(c)利用小型NLI模型检测信息是否与参考文本相符。

另一种不依赖参照,依靠模型自身的可信度评估,包括(a)将陈述转化为问题,(b)多次采样获取答案,(c)比较答案的一致性或使用GPT进行语义分析。

通过生成多份样本并依据真实性评分排序,可构建一个训练集,接着使用DPO对模型进行微调优化。

研究显示,为模型的搜索结果提供归因能有效降低错误信息。例如,Nakano等人在2022年提出的WebGPT结合了网页搜索与GPT模型的微调,以处理复杂问题,提升事实准确性。

WebGPT能与文本式网络浏览器互动,引用网页内容作答。当引用时,它会保存页面标题、网址和摘录作为证据。模型首先通过观察人类如何使用网络搜索解答问题进行行为克隆的监督微调,从而学会利用参考资料辅助判断事实正确性。

对比两个模型在解答同一问题时产生的答案,这些答案分别基于各自独立的参考标准评估,重点关注事实准确性、逻辑连贯性和总体效用。采用的奖励模型促进了强化学习(RL)训练和最佳n拒绝采样方法。然而,RL的效果并不显著,特别是在结合拒绝采样时,效果更为有限。2022年,Menick等人推出了GopherCite,其运作方式与WebGPT相仿,两者都利用搜索引擎获取支持信息,并采用RLHF训练进行监督微调。

与依赖人类范例的WebGPT不同,GopherCite借助少量提示生成范例,并结合相关文档的背景信息来填充生成内容,随后利用奖励模型评估并选择最优答案。

为了防止低质量的回答,模型被设定为排除使用固定的“我不知道”作为答案,这个决策基于全局的奖励模型阈值,即选择性预测策略。

强化学习的实验结果与WebGPT的经验一致,即RL带来的改进有限,尤其在与拒绝采样结合时,可能不产生额外的提升。

翁荔,作为OpenAI的华人科学家和ChatGPT的贡献者之一,她毕业于北京大学。

作为OpenAI人工智能研究领域的领军人物,她自2018年起投身于该机构,尤其在GPT-4项目中承担了预训练、强化学习与对齐策略以及模型安全的关键任务。在OpenAI去年建立的安全顾问小组中,她领导安全系统团队致力于防止类似ChatGPT的模型被误用或滥用。

一篇详尽的报告横跨49页,深入剖析了大型语言模型的复杂性。

今日话题聚焦于单身者的逆袭故事。

有人声称能在短时间内高效完成生产任务。

OpenAI的飞速发展与马斯克的豪言壮语形成鲜明对比。

“悟道3.0”这一重要版本正式亮相。

OpenAI吸引了众多才华横溢的人才加盟。

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析