大模型的幻觉问题，又有新的解决方法了！-尊龙凯时ag旗舰

产业

大模型的幻觉问题，又有新的解决方法了！

2023-09-24 14:28

所谓大模型幻觉，就是输出一些看似合理但完全不对的内容。meta此次提出的“验证链”（cove），是与“思维链”（cot）相似的一种链式方法。区别在于，“step-by-step”的思维链更关注逻辑推理，而验证链更注重事实信息。

大模型的幻觉问题，又有新的解决方法了！

meta ai实验室提出了一种“分而治之”的尊龙凯时ag旗舰的解决方案。

有了这个方案，llama-65b输出的信息准确率提升了一倍，甚至超过了chatgpt。

所谓大模型幻觉，就是输出一些看似合理但完全不对的内容。

meta此次提出的“验证链”（cove），是与“思维链”（cot）相似的一种链式方法。

区别在于，“step-by-step”的思维链更关注逻辑推理，而验证链更注重事实信息。

有网友看了之后发现，这个验证链很像是自己用chatgpt写代码时的一种科学方法：

那么“验证链”究竟是个什么方法，“验证”的又是什么呢？

拆解答案，分而治之

验证链的核心思想，是把要验证的一大段内容，拆解成一个个小的问题，具体流程是这样的：

首先，模型会根据用户提出的问题照常生成回复。

接着，根据生成的回复内容，针对其中的各项信息，生成一系列的验证问题。

然后让模型自行回答其所提出的这些问题，并根据结果对初始答案进行调整，得到最终结果。

举个简单的例子，假如想询问模型19世纪美墨战争的主要原因是什么。

模型回答了事件发生的时间，以及在这之前都发生了什么事。

之后针对这一系列事件，逐一询问它们是什么时候发生的。

于是，模型发现自己提到的一项内容时间相差太远，调整后给出了最终的答案。

其中，问题的生成和验证是最关键的一环，对此，研究人员一共提出了四种具体的方式：

joint，即将生成问题和回答的指令写入同一段提示词 2-step，即先让模型生成提问，然后开启新的对话（一次性）回答提出的问题 factored，在2-step的基础上，对提出的每一个问题分别开启新对话 factor revise，在factored的基础之上加入一致性检验，让模型重点关注前后不一致的内容

这四种模式越来越细化，准确率也是越来越高。

△从红色开始，四种颜色依次代表无cove、joint、factored和factor revise

那么为什么拆分提问就能提高模型的准确性呢？

首先是因为拆解后的问题比整体任务更容易，论述题变成了问答甚至选择、判断题，问题简单了，准确率也就提升了。

此外，把问题分解可以让模型真正重新思考，而不是反复地重复错误答案。

那么，验证链方式的效果究竟如何呢？

信息准确率超过chatgpt

为了探究这一问题，研究人员用llama进行了测试，测试任务一共有三项。

首先是信息列举，比如列举出出生于某地、从事某行业的名人。

这项任务中，研究人员一共测试了两个数据集——简单一些的wikidata和从难一些的wiki-category list（从维基百科中提取）。

结果发现，65b参数的llama，在two-step模式的验证链加持下，简单问题的准确度从0.17提升到了0.36，增加了一倍还多，复杂问题准确度也接近翻番。

接下来是“闭域问答”题，研究人员从multispanqa数据集中抽取多个不连续信息进行挖空提问。

比如“谁在哪一年创建了世界上第一家出版社”（答案是johannes gutenberg, 1450）。

结果，cove也为llama带来了20%左右的准确度提升。

第三项任务是“长段文本传记生成”，问题就是“tell me a bio of (人名)”，使用factscore数据集进行评价。

结果在factor reviese模式下，准确率不仅比无验证链模式大幅提高，还超过了chatgpt。

对这项研究感兴趣的朋友，可以到论文中了解更多细节。

论文地址：

https://arxiv.org/abs/2309.11495

大模型的幻觉问题，又有新的解决方法了！-尊龙凯时ag旗舰

大模型的幻觉问题，又有新的解决方法了！

关键词

相关阅读

baichuan 2开源模型发布之后，用llama 2作为开源模型的时代就已经过去了

盘古大模型3.0正式掀起行业高潮！

ai大模型难救商汤：巨额亏损，再爆裁员

中央网信办罗锋盈：将海量数据转换为真正能为大模型训练所用的数据是工作重点

快手展示全模态、大模型aigc尊龙凯时ag旗舰的解决方案和aigc数字人产品

快手首次正式公布大模型进展数字人产品“快手智播”亮相

gpt-4引发ai算力需求爆发，微美全息（wimi.us）加速大模型与ai智能算力共振跃升“奇点”

王小川谈王慧文做大模型，他缺乏技术背景

广汽正式推出ai大模型平台

24快报

chao起大鲍岛，畅游元宇宙，体验里院“一天一百年”

中日韩元宇宙高尔夫跨国明星赛，打造亚洲数字竞技新高度

利亚德参展国际“声光视讯显元宇宙”全产业盛会

工商银行申请基于元宇宙的资源转移专利，提高了资源转移的效率和

重庆渝中区：数字化演绎传统经典将国风之美融入元宇宙

全球首个国家级“元宇宙”平台沙特上线主要用于在线旅游

沙特推出世界首个国家级“元宇宙”平台，用户可线上游览当地景点

《元梦之星》元宵节再上央视，星搭子们在“小小元宇宙”共庆佳节

捷安高科：为河南省元宇宙协会副会长单位及专精特新中小企业，获

乐华娱乐签约元隆雅图开展ip衍生品及元宇宙等方面合作

ude2024盛大开幕，开年首展蓄势声、光、视、讯、显、元宇宙六大

重庆：4200 亿元，支持企业研发元宇宙产品，打造特色产业园

周鸿祎：“元宇宙”概念明年可能会东山再起

借力roblox东京造本土元宇宙名片，国内文旅可以学到什么

sora“加速”元宇宙发展，sora 一站式3d数字内容创作工具，将成

北京首个元宇宙“沉浸式”红色主题教育课程开讲

何鸿婷郑一卉：对我国新闻传播学元宇宙研究的反思

sora 一站式3d数字内容创作工具,元宇宙的内容快速建构时代即将到

元宇宙的喜与忧

开启元宇宙的“钥匙”有了合肥造合肥加快打造具有国际领先优势