最火的几个大语言模型都爱“胡说八道”,谁的“幻觉”问题最糟?
时间:2023-08-18 14:03:14来源:华尔街见闻

总部位于纽约的人工智能初创公司和机器学习监控平台Arthur AI于8月17日周四发布最新研报,比较了微软支持的OpenAI、“元宇宙”Meta、谷歌支持的Anthropic,以及英伟达支持的生成式AI独角兽Cohere等公司大语言模型(LLM)“产生幻觉”(AKA胡说八道)的能力。


(资料图片仅供参考)

Arthur AI会定期更新上述被称为“生成式AI测试评估”的研究计划,对行业领导者及其他开源LLM模型的优缺点进行排名。

最新测试选取了来自OpenAI 的GPT-3.5(包含1750亿个参数)和GPT-4(1.76万亿参数)、来自Anthropic的Claude-2(参数未知)、来自Meta的Llama-2(700亿参数),以及来自Cohere的Command(500亿参数),并从定量和定性研究上对这些顶级LLM模型提出具有挑战性的问题。

在“人工智能模型幻觉测试”中,研究人员用组合数学、美国总统和摩洛哥政治领导人等不同类别的问题考察不同LLM模型给出的答案,“旨在包含导致LLM犯错的关键因素,即它们需要对信息进行多个推理步骤。”

研究发现,整体而言,OpenAI的GPT-4在所有测试的模型中表现最好,产生的“幻觉”问题比之前版本GPT-3.5要少,例如在数学问题类别上的幻觉减少了33%到50%。

同时,Meta的Llama-2在受测五个模型中整体表现居中,Anthropic的Claude-2表现排名第二,仅次于GPT-4。而Cohere的LLM模型最能“胡说八道”,而“非常自信地给出错误答案”。

具体来看,在复杂数学问题中,GPT-4表现位居第一,紧随其后的是Claude-2;在美国总统问题中,Claude-2的准确性排名第一,GPT-4位列第二;在摩洛哥政治问题中,GPT-4重归榜首,Claude-2和Llama 2几乎完全选择不回答此类问题。

研究人员还测试了人工智能模型会在多大程度上用不相关的警告短语来“对冲”它们的答案,以求避免风险,常见短语包括“作为一个人工智能模型,我无法提供意见”。

GPT-4比GPT-3.5的对冲警告语相对增加了50%,报告称,这“量化了用户们所提到GPT-4使用起来更令人沮丧的体验”。而Cohere的人工智能模型在上述三个问题中完全没有提供对冲。

相比之下,Anthropic的Claude-2在“自我意识”方面最可靠,即能够准确地衡量自己知道什么、不知道什么,并且只回答有训练数据支持的问题。

Arthur AI的联合创始人兼首席执行官Adam Wenchel指出,这是业内首份“全面了解人工智能模型幻觉发生率的报告”,并非仅仅提供单一数据来说明不同LLM的排名先后:

在上述研报发表同日,Arthur公司还推出了开源的AI模型评估工具Arthur Bench,可用于评估和比较多种LLM的性能和准确性,企业可以添加定制标准来满足各自的商业需求,目标是帮助企业在采用人工智能时做出明智的决策。

“AI幻觉”(hallucinations)指的是聊天机器人完全捏造信息,并表现成滔滔不绝讲述事实的样子来回应用户的提示语问题。

谷歌在今年2月为其生成式AI聊天机器人Bard拍摄的宣传视频中,对詹姆斯·韦伯太空望远镜做出了不真实的陈述。今年6月,ChatGPT在纽约联邦法院的一份文件中引用了“虚假”案例,提交该文件的涉案律师可能面临制裁。

OpenAI研究人员曾在6月初发布报告称找到了解决“AI幻觉的办法”,即训练AI模型在推理出答案的每个正确步骤上给予自我奖励,而不仅仅是等到推理出正确的最终结论时才给予奖励。这种“过程监督”的策略将鼓励AI模型按照更类似人类的“思考”方式进行推理。

OpenAI在报告中承认:

投资大鳄索罗斯也曾在6月发表专栏文章称,人工智能在当下最能加重世界面临的多重危机(Polycrisis),理由之一便是AI幻觉的严重后果:

此前,被视为“人工智能教父”且从谷歌离职的杰弗里·辛顿(Geoffrey Hinton)多次公开批评AI带来的风险,甚至可能摧毁人类文明,并预言“人工智能仅需5到20年就能超越人类智能”。

本文来自华尔街见闻,欢迎下载APP查看更多

标签:

  • 上一篇文章: 健康上网专家怎么卸载_健康上网专家
  • 下一篇文章: 最后一页
  • 生活指南
  • 省委网信办与美亚柏科召开合作交流座谈会

    中国甘肃网8月16日讯(西北角·中国甘肃网记者孙珩力)8月16日下午,省

  • 上市公司扎堆涌入复合集流体赛道 技术路线面临不确定性

    8月14日,光莆股份公告称,近日与普利特控股子公司江苏海四达电源有限

  • 全球登陆强度最强的台风 18级超强台风诞生

    hello大家好,我是城乡经济网小晟来为大家解答以上问题,全球登陆强度

  • 半贵金属烤瓷牙价格(半贵金属烤瓷牙价格)

    很多人对半贵金属烤瓷牙价格,半贵金属烤瓷牙价格不是很了解那具体是什

  • 德邦证券给予奥来德买入评级 定增备案通过 新增对外投资完善OLED材料布局

    德邦证券08月15日发布研报称,给予奥来德(688378 SH,最新价:43 71元

  • 湖人该追篮网24岁中锋?美媒晒4换1交易方案:他是浓眉的精英搭档

    北京时间8月14日,美媒晒出一笔4换1的交易方案,建议湖人力争换来篮网2

  • 库明加狂轰60分打脸勇士 新季他的天赋还会被浪费吗?

    今夏,他们又用一份打折合同续约了追梦,似乎是要将所谓“信任老兵、情

  • 什么是肾病综合征症状(什么是肾病综合征)

    1、肾病综合征是指临床上表现为大量蛋白尿、低蛋白血症,同时伴有严重

  • 石景山区古城街道:解决居民“房前屋后”难题 创造宜居生活环境

    为创造宜居生活环境,石景山区古城街道积极响应居民“房前屋后”的难题

  • 国家发改委:生猪价格退出过度下跌一级预警区间

    中新网8月14日电据国家发展改革委微信公众号消息,据国家发展改革委监

  • 今后11年,四大生肖一路旺到底,桃花盛开,吉星照耀

    生肖虎的人深谋远虑,事业上平步青云,小人避让,财运节节高升,连连翻

  • 二进宫?意媒:意大利足协可能在接下来几小时里与孔蒂接触

    直播吧8月13日讯据全市场网报道称,意大利足协可能在接下来几小时接触

  • 富甲天下5上架:49元限时特价

    2008年由光谱资讯发行的经典策略游戏《富甲天下5》于8月10日正式上架,

  • 红旗连锁(002697)8月3日主力资金净卖出652.33万元

    截至2023年8月3日收盘,红旗连锁(002697)报收于6 13元,下跌0 65%,换

  • 加拿大多伦多迎来2023年首次“超级月亮”

    (双重曝光)中新网记者余瑞冬摄当地时间8月2日凌晨,夜色薄云下的加拿大

  • 蜜雪冰城于河南投资新设送冰冰供应链公司

    企查查APP显示,近日,送冰冰供应链(河南)有限公司成立,法定代表人

  • 民生
    • 对孩子的希望和寄语文案 对孩子的希望和寄语

    • 天地源拟注销下属公司珠海源拓 有利于降低管理成本

    • Smartbi 修改用户密码漏洞

    • 代号鸢地宫阵容搭配推荐