跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

深度学习领域的杰出专家翁荔揭示了大型模型的“外部幻想”现象,他通过一篇详尽的千余字博客文章阐述了应对策略、产生幻想的根源以及检测方法。以下是重写后的内容:

一位人工智能领域的领军人物揭示了一种名为“外部幻想”的现象,这在大规模模型中尤为显著。他以一篇深入的长文,超过一千字,详细探讨了如何抵御这种现象、其产生的根本原因,以及实施检测的手段。

编辑日期:2024年07月14日

深度学习领域的杰出专家翁荔揭示了大型模型

与传统观念中模型产出与事实相悖、虚构、矛盾或无意义内容不同,翁荔将大型语言模型的“幻觉”现象定义为:模型生成的内容纯属虚构,并未依据提供的上下文信息或现实世界知识。

因此,可以将幻觉划分为两种类别:

深度学习领域的杰出专家翁荔揭示了大型模型

早些时候,翁荔提出了一个Agent构想公式:Agent = 大型模型 + 存储记忆 + 自主导航 + 工具运用,此观点获得了部分网友的高度评价,被誉为关于Agent的最出色的见解之一。

深度学习领域的杰出专家翁荔揭示了大型模型

深度学习领域的杰出专家翁荔揭示了大型模型

这篇关于大型模型幻觉的博客文章投入了大量精力,篇幅极为宏大,引用的参考资料多达24篇。

深度学习领域的杰出专家翁荔揭示了大型模型

翁荔主要探讨了外在幻觉的议题,深入剖析了三个方面:引发幻觉的根源何在?如何鉴别与检测幻觉?以及有效抵抗幻觉的策略。

深度学习领域的杰出专家翁荔揭示了大型模型

我们已获得原作者授权,对文章进行了精心改编和整理,以量子位的视角重新阐述,确保传达原有意思。

原文在这里:

https://lilianweng.github.io/posts/2024-07-07-hallucination/

鉴于一个典型的可部署大型语言模型需要经历预训练和微调以确保对齐和优化,我们的分析将聚焦在这两个关键阶段。

庞大的预训练数据集致力于囊括全球所有可获取的书面知识,因而其规模极为可观。

网络公开数据的抓取是普遍的做法,但这其中往往混杂着过时、不完整或失实的信息。模型有可能会错误地记住这些数据,仅仅通过最大化对数似然的方式,从而导致其在应用中出错。

预训练的LLM通常借助监督微调(SFT)和人类反馈强化学习(RLHF)进行优化,以提升其在特定任务,如指令遵循等方面的能力。这个过程中,不可避免地会融入新的认知。

微调通常需要较少的计算资源,但是否能确保小规模的微调模型有效地习得新知识仍是一个有待探讨的问题。

在今年的一项研究中,Gekhman 等人探索了一个引人深思的问题:对大型语言模型进行基于新知识的微调是否可能导致虚构现象的出现。

研究显示,LLM在吸收新颖知识的微调实例时,其学习速度相对较慢。一旦掌握了这些新知识,模型出现错觉的概率会显著提高。

具体而言,考虑一个封闭式问答的数据集合@EntityQuestions,记为𝐷={(𝑞, 𝑎)},我们可定义𝑃Correct(𝑞, 𝑎; 𝑀, 𝑇)为模型𝑀在应用随机实例和特定解码温度𝑇的提示下,准确预测问题𝑞的正确答案𝑎的概率估计。

他们依据𝑃Correct(𝑞,𝑎;𝑀,𝑇)在不同情况下的表现,将样本划分为四个类别:熟悉组(细分为高度熟悉、可能熟悉和稍弱熟悉三个子组)、以及未知组。

深度学习领域的杰出专家翁荔揭示了大型模型

在实验中,我们注意到一些引人入胜的现象,其中开发集(dev set)的精确度被用作一种表征虚幻状况的指标:

深度学习领域的杰出专家翁荔揭示了大型模型

这些研究发现,采用监督微调方法来升级LLM的知识可能存在一定的风险。

Lee等人在2022年创建了一项名为FactualityPrompt的新标准评估工具,旨在揭露量化模型的错觉问题。这个数据集蕴含了真实与不真实的提示,并借助维基百科的文章或句子作为验证事实的可靠信息源。

维基百科条目源于验证过的FEEVER数据集,其中包含确凿的事实信息。选取的句子则基于tf-idf算法或句子嵌入的相似性比对。

深度学习领域的杰出专家翁荔揭示了大型模型

在对给定模型进行后续内容创作和匹配的维基百科文章编辑时,我们关注了两个关键的错觉评估标准:实体识别误差率(NER Error Rate)和蕴含比例(Entailment Ratios)。

较高的真实度通常体现在更高的NE错误率和更低的蕴含比例,这些指标已被证实与人类评审的关联性强。大型模型在该标准下通常展现出更优的性能。

此外,Min等人在2023年提出了一个名为FActScore的创新方法,它将长文本生成任务拆解为多个独立的事实单元,并对每个事实进行单独的验证,利用如维基百科这样的知识库。该方法通过计算模型生成的句子中有多少得到了知识源的确认(即精度)来评估。FActScore是模型在一系列提示下生成的句子平均精度的体现。

研究发现,在创建人物传记的任务中,多种事实核查策略被运用,结果表明,采用信息检索技术比不提供背景的大型语言模型能产生更连贯的结果。在优化检索增强方法时,最佳模型的选择是个关键因素。

一些对模型幻想行为的迷人洞察:

2024年,Wei 等人推出了一项创新性评估工具,称为SAFE,即搜索引擎增强的事实性评估器,专注于长篇事实性内容的检验。

与FActScore相比,SAFE的独特之处在于它借助语言模型作为智能代理人,通过一系列逐步的查询过程与谷歌搜索引擎交互。这个代理人会分析搜索结果,判断它们对某一事实是赞同还是反对,最终只提供相应的评估。

在每个阶段,Agent 根据待验证的信息以及先前的搜索输出构建查询。经过一系列步骤,模型通过推理来判断这条信息是否能得到搜索结果的证实。

实验显示,SAFE 策略的成本相比于人工注释低廉了整整20倍,然而其性能却更胜一筹:它与人类注释的一致性达到72%,在观点分歧时,有76%的情况下超越了人类注释。

深度学习领域的杰出专家翁荔揭示了大型模型

SAFE 评价标准采用的是 F1@K 指标。在评估详实的长篇内容时,理想情况下应当兼备精确度与召回率,确保模型的响应既准确无误,又能全面涵盖所有重要信息。

F1@K 指标在给定的模型响应𝑦的情况下,被定义为:

深度学习领域的杰出专家翁荔揭示了大型模型

深度学习领域的杰出专家翁荔揭示了大型模型

Chern等人在2023年推出了FacTool,这是一项依照常规事实核查流程设计的创新工具。其主要目标是识别并纠正各种任务中的事实错误,这些任务涵盖了基于知识的问答、代码生成、数学问题求解以及科学文献审核等多个领域。该流程主要包括一系列步骤:

深度学习领域的杰出专家翁荔揭示了大型模型

在2023年,Manakul等人推出了一种名为SelfCheckGPT的方法,该方法基于对黑盒LLM的多个输出样本进行一致性验证来检测事实性错误。

考虑到灰盒验证对LLM的token级logprob的访问需求,SelfCheckGPT仅需内部不依赖外部数据的样本,因此只需采用黑盒访问方式,无需借助外部知识库。

该方法通过一系列指标评估模型反应与随机模型样本的契合度,比如BERTScore、NLI以及是/否提问的提示技术。在针对GPT-3生成的WikiBio段落的实证研究中,采用提示的SelfCheckGPT方法展现出了最优性能。

深度学习领域的杰出专家翁荔揭示了大型模型

调整未认知的信息,仅提供改写后的内容:

对于那些无法解答或涉及未知领域的提问,模型的回答可能会产生误导。TruthfulQA和SelfAware是两个重要的评估标准,用来检测模型在面对这类挑战时产生可靠响应的本领。TruthfulQA是特意设计来通过揭示可能的人类误区进行对抗性评估,而SelfAware则包含了一系列本质上无法回答的问题。

在遇到这类问题时,模型应当选择不作答或提供相关的数据。

TruthfulQA 采用了一种独特的方法,其问题旨在揭示人们常有的误区或认知偏差,具有较强的对抗性。该评估标准包括了涉及健康、法律、金融和政治等38个不同主题的817个问题。

测试结果显示,最优秀的LLM模型达到了58%的精度,而人类的准确度可高达94%。研究团队注意到,大型模型在应对常见误解时显得不够真实,但这一现象并未在其他常规(非对抗性)事实评估基准中体现。

以下是GPT-3在TruthfulQA测试中给出的一些不正确回答的例子:

深度学习领域的杰出专家翁荔揭示了大型模型

2023年,一项研究探索了SelfAware的理论,关注点在于评估语言模型是否具备认知自身知识范围的能力,即它们能否辨识出自己所知与未知的信息。

SelfAware 数据集中涵盖了1032个未解问题和2337个可解答问题,这些问题分布于五个不同的类别中。未解问题来源于网络论坛且配有专业的人类注解,而可解答的问题则取自SQuAD、HotpotQA及TriviaQA等资源。

某些问题可能由于多方面因素难以给出答案,比如科学领域缺乏统一见解、涉及对未来设想的不确定性、纯粹基于个人主观感受,或是哲学问题引发的多元思考等。

研究将问题的响应性分为两类,并视之为一个二元分类问题,采用F1分数或精确度来衡量模型性能。实验证明,更大规模的模型在执行此任务时展现出更优的效果。

深度学习领域的杰出专家翁荔揭示了大型模型

衡量模型对新知识理解程度的一种方法是通过分析其预测的不确定性。在面对既熟悉又陌生的问题时,模型应当能够给出恰当的置信度。

Kadavath等人在2022年的研究发现,大型语言模型(LLM)在评估多个选择题(如MMLU、TruthfulQA、QuALITY和LogiQA)答案正确性的概率方面表现出色,其预测概率与实际答案正确的频率相吻合。

虽然RLHF微调可能导致模型的校准性能下降,但增加采样温度却能显著提高校准效果。

深度学习领域的杰出专家翁荔揭示了大型模型

林等人在2022年推出了一个名为CalibratedMath的工具包,它包含了一系列通过编程方式设计的数学题目,这些题目具有不同的难度层次,旨在评估模型输出概率的校准准确度。

每个问题的回答,模型需包含一个数字结果以及对应于该结果的可信度评估。我们考量了三种不同的概率形式:

深度学习领域的杰出专家翁荔揭示了大型模型

Agrawal 等学者于2023年深入探究了LLM生成内容中的虚幻引用现象,涉及虚构书籍、文章及论文标题。他们运用了两种一致性检验策略来识别这些幻觉:直接查询和间接查询。这两种方法会在T大于0的条件下反复执行,以确保结果的一致性。

深度学习领域的杰出专家翁荔揭示了大型模型

直接询问需要模型评估其生成的参考材料是否可用,而间接询问则需补充具体信息,比如询问参考文献的作者身份。

假如我们考虑一种虚构的信息来源,那么它对于同一位作者的多次描绘往往不如直接多次验证该信息源的真实性来得一致。

研究显示,采用间接询问策略能取得更优的效果,大型模型具备更强大的性能,并且出现幻觉情况的概率更低。

让我们接下来探讨一系列策略,旨在增强大型语言模型的答复真实性,这涉及获取外部知识、独特的采样技术以及对齐微调。对于借助神经元编辑来消除误导性输出的可解释性方法,我们在此不作深入讨论。

"检索增强生成"(RAG)是种普及的策略,它涉及查找相关信息源,随后将这些额外的关联文档用作背景,以便在生成内容时提供更丰富的信息基础。

"RARR,即研究与修订的逆向归因框架,是由Gao等人在2022年提出的。该框架创新性地通过修改归因方式,使得大型语言模型能够对先前的外部证据进行追溯性的归因分析。"

RARR流程包含两个主要阶段,其结果是一个优化的文本𝑦以及一份归因报告𝐴。该过程专注于生成全新的文本内容,不包含任何原始输入 tekst𝑥的信息,并始终以中文形式回应。

探究阶段:搜集相关文献以作为支撑依据。

首先,运用查询构造模型(借助少量示例提示,𝑥→𝑞1,…,𝑞𝑁),建立一系列探索性查询 Quentin1 至 QuentinN,以多角度验证每个句子的各个层面。

执行谷歌搜索,每次检索会显示五个相关结果,即𝐾=5项结果,这些结果为𝑞𝑖。

运用预先训练的查询与文档关联性模型来评估相关性评分,每个查询𝑞𝑖仅会选择一个最相关的文档𝑒𝑖1作为回应。

2、优化步骤:对文本进行编辑,去除缺乏证据支持的部分,同时尽量保持原有信息的完整性。更新后的文本表示为𝑦=𝑥。

利用 \((𝑞𝑖,𝑒𝑖)\),协议模型通过结合少量示例提示和概念图(CoT)方法,评估证据\(𝑒𝑖\)是否与最新文本内容相冲突,其输出为二进制结果(0或1)。仅提供重写后的文本,始终以中文回答。

只有在发现不匹配的情况下,编辑模型(利用少量提示和CoT技术,将(𝑦,𝑞,𝑒)转化为新的𝑦)才会生成𝑦的新版本,目标是在保持𝑦基本不变的同时,使其与证据相一致。

最终,归因报告𝐴.仅包含有限的证据集𝑀,其规模限定为5。

深度学习领域的杰出专家翁荔揭示了大型模型

在考量更新后的文本𝑦的价值时,归因分析与保持原意同样关键。

我们采用AIS(归功于已知来源)分数来评估因素𝐴在𝑦中的影响力。这一过程可以通过获取人工注解或者利用NLI模型来估算自动AIS分数。

"保留"指的是保持原始文本内容的程度,其度量标准为Previntent×PrevLev,其中Previntent需依赖人工标注,而PrevLev则是利用字符级的Levenshtein编辑距离计算。相较于两个基准方法,RARR在维持平衡效果上表现出色,尤其是在保留原文信息的准确性上。

Mishra等人在2024年提出的FAVA(基于增强知识的事实验证)方法也涉及查找相关信息,随后调整模型的产出,以消除误导性错误。该模型由两部分构成:一个检索模块和一个编辑模块。

根据提示𝑥和模型的 输出𝑦,寻找最为相关的文件,并仅提供重写后的内容。始终以中文回答。

深度学习领域的杰出专家翁荔揭示了大型模型

编辑器生成增强输出:

深度学习领域的杰出专家翁荔揭示了大型模型

RARR 无需训练过程,然而,对于 FAVA 中的编辑工具模型𝑀edit,则需要进行精细调整。为了创造编辑模型的合成训练数据,我们可以通过细致划分各种类型的错觉误差,然后在模型生成过程中刻意引入随机错误来实现。

每个样本由一个三元素组(𝑐,𝑦,𝑦∗)构成,其中𝑐代表源自维基百科的原始参考段落,𝑦是语言模型生成的有误输出,而𝑦∗则是包含了错误标识及修正版本的正确输出。

深度学习领域的杰出专家翁荔揭示了大型模型

RR策略,源自He等人在2022年的研究,是一种重思考方法,它利用检索式外部知识,但不需进行额外的编辑工作。

RR 检索方法并不依赖于搜索查询的生成模型,而是采用了分解式的 CoT(Contextualized Task)提示技术。

当温度超过0时,针对输入提示𝑄,RR利用CoT技术会生成多个推理流程𝑅1到𝑅𝑁。每个流程𝑅𝑖不仅包含一个推理组件𝐸𝑖,即逻辑解释,还附带了一个预测值𝑃𝑖,这实际上是模型的实际输出。为了加固这些解释,我们会查找外部知识源𝐾1至𝐾𝑀。接下来,通过评估这些知识片段与解释的吻合度,我们挑选出最为贴切的答案,并仅返回该答案。

运用 RR 稀疏检索技术,我们对 BM25 搜索算法在维基百科上进行了实践,随后结合预训练的 MPNet 模型提供的嵌入向量,利用余弦相似性进行结果再排序。

忠诚度评估:我们综合考虑了推理路径的蕴含分数、冲突分数以及 MPNet 对比相似度来估算其忠实度。这些分数都源于预先训练的 NLI 模型。

深度学习领域的杰出专家翁荔揭示了大型模型

"自我反思式自适应生成(Self-RAG)由Asai等人在2024年提出,它通过整体的端到端训练,使语言模型能够掌握一种能力:在生成任务结果的同时,插入特定的反思标记以审视自身的生成过程。"

研究小组利用GPT-4的指导创建了一个评估和生成模型的监督型数据集,随后他们将这个数据集精炼到一个内部模型,以此减少推断成本。

深度学习领域的杰出专家翁荔揭示了大型模型

当提供输入信号𝑥时,生成的 输出𝑦包含多个组件,比如每个段落可视为一个独立的句子。反思标签共分为四类,其中一类用于信息检索,其余三类则专注于评估。请仅提供重写后的文本,排除任何原始内容,并始终以中文作答。

Self-RAG 每次产生一个𝑦𝑡片段,基于输入𝑥和先前生成的𝑦<𝑡。在解码过程中,模型专注于检索令牌,其结果仅返回重写的内容,不含任何原始信息。

如果Retrieve参数设置为否,那么直接产生𝑦𝑡。

当Retrieve参数设置为是,模型会并行地检索多个篇章,并通过IsRel标志来评估所获取的文档是否具有相关性。若文档相关,系统将生成𝑦𝑡,并运用不同的评价令牌对结果进行评分、排序,从多个输出中挑选出最优的答案。

可以构建一个独立的验证和优化机制,借助模型自身的内在能力,来消除错误认知,只提供修改后的文本内容。

Dhuliawala等人在2023年开发了一种名为Chain-of-Verification(CoVe)的策略,该策略依赖于动作序列来进行规划与执行验证。CoVe的核心流程涵盖四个关键阶段:

整合步骤2,构建的few-shot示例格式为(回答,确认问题,确认答案);然而,这种方法的不足之处在于,由于原始回答处于上下文之中,模型有可能会产出与原先相似的误导性信息,仅提供改写后的文本。

两步策略:将确认计划与执行阶段独立处理,确保不改动原有回应内容。

3)细化回应:对每一个确认问题进行单独解答。比如,如果主要生成的结果引发了多个校验问题,那么应逐个对这些问题进行详细回答。

在执行分解验证之后,引入一个“对照核查”阶段,依据基准响应和验证问题及其答案设置条件限制,以此来排查可能出现的不一致情况。

CoVe 的设计思路源于避免冗余的幻觉现象,这可能在连续的验证过程中发生,因为初始的幻觉响应仍然存在于上下文中,并可能在后续的生成环节中被反复引用。研究发现,独立地对每个验证问题进行回应比生成长篇内容更能产生优质的结果。

深度学习领域的杰出专家翁荔揭示了大型模型

以下是一些来自 CoVe 实验的引人入胜的发现:

Sun 等研究人员在2023年提出了一种名为RECITE的策略,该策略利用复述作为核心手段,旨在提升模型产生的事实准确性并降低虚假信息的产生。

其目标是将Transformer的存储能力转化为一种信息检索模型。在RECITE的方法中,首先让LLM重复相关资料,随后生成最终的输出。

具体而言,我们能够借助few-shot的学习情境来引导模型掌握复述技巧,进而利用这种复述能力生成应答。同时,该方法还能融入一种自我一致性整合策略,该策略涉及多个样本来增强性能,并且具备扩展性,能够支持多步推理的问答场景。

深度学习领域的杰出专家翁荔揭示了大型模型

生成的复述与BM25检索模型的表现相近,但在应用实际段落时都有所不足。据研究小组的误差分析显示,约有7%-10%的问题尽管复述准确,却无法得出正确答案;而大约12%的问题复述存在偏差,却依然能得出正确的回应。

研究者Lee等在2022年的研究表明,尽管核采样通过引入更多随机性来增强多样性和减少重复,但在FactualityPrompt评估基准上,它的性能并不如贪婪采样。

于是,他们设计了一种假设驱动的事实核心采样策略,该策略认为句子后部的事实准确性更易受随机采样的影响。这一方法旨在根据句子内容动态调节每个词汇被采样的概率𝑝。在句子的第𝑡个位置,采样概率ptest计算为𝑝𝑡=max(𝜔, 𝑝⋅𝜆𝑡−1),其中𝜔是一个防止退化回简单贪婪采样的参数,以确保生成的质量和多样性不受损失。

深度学习领域的杰出专家翁荔揭示了大型模型

在2023年,李等人创新性地提出了推理时间干预(Inference-Time Intervention, ITI)技术。该方法通过在各个层次上运用线性探查来分析激活状态,旨在甄别真实输出与虚假输出之间的差异。他们专注于探究某些注意力机制是否与事实性具有更强的关联性。

研究显示,许多注意力机制的效能并不优于随机选择,但有一部分展现出显著的高效能。在鉴别出一组具有高线性检测真实性的稀疏注意力头后,ITI 在推断过程中会倾向于调整这顶部𝐾个选定注意力头的激活状态,使其更符合“真实”的方向。

深度学习领域的杰出专家翁荔揭示了大型模型

原文:在当前的全球环境下,国际贸易扮演着至关重要的角色,促进了各国间的商品和服务交换,推动了经济增长和发展。

重写:在全球化的背景下,国际贸易发挥着核心作用,它加速了各国之间的货物与服务流通,对经济增长和发展起到了显著的推动作用。

在2022年,李等人创新性地提出了两项关于事实增强训练的策略。

在 2024 年,林团队倡议了一种聚焦于事实性的训练方法,结合了监督事实检测与强化学习人类反馈,他们将其称为 FLAME。

先前的讨论指出,有迹象显示对新知识的细微调整可能会引发错觉,而 RAG 的监管机制涵盖了 LLM 不具备的数据。

方法一:将RAG数据样本视为正面样本,而原始模型生成的内容视为负面样本,以此构建RM数据集。

方法2:采纳FActScore作为事实正确性的反馈信号。

深度学习领域的杰出专家翁荔揭示了大型模型

为防止在对齐训练过程中无意间将未识别的知识传授给模型,他们提议利用模型生成的回复来构建SFT / DPO数据集。

深度学习领域的杰出专家翁荔揭示了大型模型

Tian&Mitchell等人在2024年提出的Factuality tuning方法侧重于通过微调语言模型来提升事实准确性。他们探索了各种策略来评估模型输出中每个原子陈述的可信度,随后运用DPO技术,仅返回经过重写的文本内容。

深度学习领域的杰出专家翁荔揭示了大型模型

事实性调整过程:

请提供一个著名人物的简介,比如“描述一下马友友的生平”,我将返回重写后的内容。始终使用中文回应。

通过两种全自动的方式对真实性进行验证:

我们可采取如下方法验证模型声明是否与外部知识库一致:(a) 首先,提炼出一系列独立的断言;(b) 然后,搜索维基百科以获取相关资料;(c) 最后,运用一个经过微调的小型NLI(自然语言推理)模型来判断参考文本是否确证了这些断言。

不依赖于外部参照的验证方式视模型自身的可信度为真实性指标,这可比作一种迂回的查询策略。首先,(a) 我们需将每个陈述转化为清晰的问题,并利用少量示例提示;接着,(b) 多次向模型询问以获取不同的解答;然后,(c) 综合评估这些答案,或者通过字符串比较或问询GPT来判断两答案在语义上的相似性。

构建训练数据集的方法是生成多个模型样本,并依据其真实性评分来设定优先级。接着,我们对模型运用DPO算法进行精细化调整,这一过程在上述数据集上进行。

深度学习领域的杰出专家翁荔揭示了大型模型

为了解决基于搜索结果的模型输出中的误导问题,赋予适当的归因是一种有效的策略。一系列的研究致力于训练大型语言模型更高效地运用检索信息,并确保归因质量高。

Nakano等人在2022年推出了创新的WebGPT模型,该模型融合了网页搜索技术和经过微调的GPT模型,目标是能够详尽解答复杂问题,以降低误导信息并增强事实的准确性。

该模型通过与文本型网络浏览器的在线搜索功能互动,学会了从网页中提取信息来应答问题。在浏览过程中,它能选择引用当前页面的部分内容。执行这项动作时,系统会保存页面的标题、网址和摘录,以备后续查询参考。WebGPT 的核心价值在于利用这些参考资料协助用户评估信息的真实性。

该模型首先通过监督学习的方式,对人类在网页浏览环境中解答问题的行为进行精细调整,从而实现行为复制。

我们搜集了针对同一问题的两个不同模型的回答,每个回答都基于独立的评估标准,包括事实准确性、流畅性和综合价值进行评价。这些数据用于强化学习(RL)的训练以及最佳选择拒绝采样策略。然而,RL 的效能有所局限,特别是在应用拒绝采样时,其效果更为减弱。

深度学习领域的杰出专家翁荔揭示了大型模型

Menick 等人在2022年推出的GopherCite与WebGPT在构建辅助资料和教育模型的引用资源时具有高度相似性,它们都采用搜索引擎,并且都执行监督微调的引导策略。此外,两者都运用了RLHF训练方法。

不同于依赖人类展示来复制行为的WebGPT,GopherCite采用了几何提示生成方法来自创演示。它会利用相关文档的背景信息来丰富每次生成的内容,并借助奖励模型评估并挑选出最优秀的版本。

深度学习领域的杰出专家翁荔揭示了大型模型

另一种提升回答质量的策略是设定模型不依赖默认的“我不知道”回应,这取决于全局的RM阈值,这一机制称为选择性预测。它确保仅提供经过筛选的答案。

强化学习的实证发现与WebGPT的体验相仿,表明RL仅能带来有限的优化提升,甚至在结合拒绝采样时可能无法带来提升。

深度学习领域的杰出专家翁荔揭示了大型模型

翁荔,身为OpenAI的华人科研专家,对ChatGPT的研发做出了重要贡献,她拥有北京大学的学历背景。

深度学习领域的杰出专家翁荔揭示了大型模型

她担任OpenAI的人工智能应用研究主管,自2018年起投身于该机构,主要在GPT-4项目中负责预训练任务,以及强化学习和对齐策略的研究,同时还专注于确保模型的安全性。

她在OpenAI的安全顾问团队中担任要职,负责安全管理团队(Security Systems),致力于解决如ChatGPT等现有模型可能引发的滥用问题,以期进行有效防控。

本文来自微信公众号:量子位(ID:QbitAI),作者:西风

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析