大模型幻觉率排行：GPT-4 3%最低，谷歌Palm竟然高达27.2%

AI行业动态9个月前发布 ainavi

5,904 0 4000

排行榜一出，高下立见。

人工智能发展进步神速，但问题频出。OpenAI 新出的 GPT 视觉 API 前脚让人感叹效果极好，后脚又因幻觉问题令人不禁吐槽。

幻觉一直是大模型的致命缺陷。由于数据集庞杂，其中难免会有过时、错误的信息，导致输出质量面临着严峻的考验。过多重复的信息还会使大模型形成偏见，这也是幻觉的一种。但是幻觉并非无解命题。开发过程中对数据集慎重使用、严格过滤，构建高质量数据集，以及优化模型结构、训练方式都能在一定程度上缓解幻觉问题。

流行的大模型有那么多，它们对于幻觉的缓解效果如何？这里有个排行榜明确地对比了它们的差距。

大模型幻觉率排行：GPT-4 3%最低，谷歌Palm竟然高达27.2%

该排行榜由专注于 AI 的 Vectara 平台发布。排行榜更新于 2023 年 11 月 1 日，Vectara 表示后续会随着模型的更新继续跟进幻觉评估。

项目地址：https://github.com/vectara/hallucination-leaderboard

为了确定这个排行榜，Vectara 使用各种开源数据集对摘要模型进行了事实一致性研究，并训练了一个模型来检测 LLM 输出中的幻觉。他们使用了一个媲美 SOTA 模型，然后通过公共 API 向上述每个 LLM 输送了 1000 篇简短文档，并要求它们仅使用文档中呈现的事实对每篇文档进行总结。在这 1000 篇文档中，只有 831 篇文档被每个模型总结，其余文档由于内容限制被至少一个模型拒绝回答。利用这 831 份文件，Vectara 计算了每个模型的总体准确率和幻觉率。每个模型拒绝响应 prompt 的比率详见「Answer Rate」一栏。发送给模型的内容都不包含非法或不安全内容，但其中的触发词足以触发某些内容过滤器。这些文件主要来自 CNN / 每日邮报语料库。

大模型幻觉率排行：GPT-4 3%最低，谷歌Palm竟然高达27.2%

需要注意的是，Vectara 评估的是摘要准确性，而不是整体事实准确性。这样可以比较模型对所提供信息的响应。换句话说，评估的是输出摘要是否与源文件「事实一致」。由于不知道每个 LLM 是在什么数据上训练的，因此对于任何特别问题来说，确定幻觉都是不可能的。此外，要建立一个能够在没有参考源的情况下确定回答是否是幻觉的模型，就需要解决幻觉问题，而且需要训练一个与被评估的 LLM 一样大或更大的模型。因此，Vectara 选择在总结任务中查看幻觉率，因为这样的类比可以很好地确定模型整体真实性。

检测幻觉模型地址：https://huggingface.co/vectara/hallucination_evaluation_model

此外，LLM 越来越多地用于 RAG（Retrieval Augmented Generation，检索增强生成）管道来回答用户的查询，例如 Bing Chat 和谷歌聊天集成。在 RAG 系统中，模型被部署为搜索结果的汇总器，因此该排行榜也是衡量模型在 RAG 系统中使用时准确性的良好指标。

由于 GPT-4 一贯的优秀表现，它的幻觉率最低似乎是意料之中的。但是有网友表示，GPT-3.5 与 GPT-4 并没有非常大的差距是令他较为惊讶的。

大模型幻觉率排行：GPT-4 3%最低，谷歌Palm竟然高达27.2%

LLaMA 2 紧追 GPT-4 与 GPT-3.5 之后，有着较好的表现。但谷歌大模型的表现实在不尽人意。有网友表示，谷歌 BARD 常用「我还在训练中」来搪塞它的错误答案。

大模型幻觉率排行：GPT-4 3%最低，谷歌Palm竟然高达27.2%

有了这样的排行榜，能够让我们对于不同模型之间的优劣有更加直观的判断。前几天，OpenAI 推出了 GPT-4 Turbo，这不，立刻有网友提议将其也更新在排行榜中。

大模型幻觉率排行：GPT-4 3%最低，谷歌Palm竟然高达27.2%

下次的排行榜会是怎样的，有没有大幅变动，我们拭目以待。

^{参考链接：}

^{https://twitter.com/bindureddy/status/1724152343732859392}

^{https://twitter.com/vectara/status/1721943596692070486}

# AI行业动态

© 版权声明

文章版权归作者所有，未经允许请勿转载。

关注公众号，免费获取chatgpt账号

免费获取chatgpt

相关文章

梅安森：合作共建矿山安全大模型联合实验室

ainavi

7,932 1600

网络规模、训练学习速度提升，清华团队在大规模光电智能计算方向取得进展

ainavi

5,976 1200

OpenAI承认推出网络爬虫机器人GPTBot以收集数据

ainavi

11,156 3600

懂幽默，嘲讽技能拉满，马斯克打造的ChatGPT竞品终于爆出了聊天截图

ainavi

4,844 3200

谷歌10M上下文窗口正在杀死RAG？被Sora夺走风头的Gemini被低估了？

ainavi

5,424 1200

IBM计划在watsonx平台上提供Meta旗下Llama 2模型

ainavi

8,016 2400

暂无评论

暂无评论...

AI中国(aicn.me)致力于收集与AI相关的热门工具，包括但不限于ChatGPT、AI视频、AI办公、AI语音等领域，并为广大AI爱好者提供学习平台，降低获取学习资源的成本。同时，同步分享最新的行业前沿AI工具和网站，旨在帮助AI爱好者不断探索AI技术的发展。

关于我们 AI教程

Copyright © 2024 优智创想智能工具导航粤ICP备2023063465号