科学猎奇2024年11月15日发布:为何人类觉得简单的推理,各大语言模型却“团灭”了?
作者:王砚辉 | 责任编辑:Admin
本次大会汇集了来自全球各地的科技领袖,共同探讨未来科技趋势...
【最准一肖一码100%香港78期】 |
【2023澳门天天六开好彩】 |
【澳门开奖网站】 |
【2024新澳门天天六开好彩大全】 |
【新澳开奖结果资料查询】 |
【今期澳门开奖结果记录】 |
【白小姐三肖中特开奖结果】 |
【2024年新澳门今晚开奖号码】 |
【新澳门开奖记录查询2024年】 |
【新澳特料2024澳门开奖结果查询官网】 |
逻辑放大镜
LOGIC
近日,德国某非营利人工智能研究学机构的几位研究者发表了一项研究成果,揭示了当下各大语言模型在推理能力上的短板。
他们设计了一系列简单的推理问题,用来测试大语言模型的推理能力,结果GPT-4、Claude、Gemini、Llama、Mistral等模型几乎全线崩塌。但是,这些大语言模型仍然展现出“迷之自信”,宣称自己的“思考过程”非常符合逻辑。
究竟是什么样的简单推理测试,
难倒了这些大语言模型?
被研究者们命名为爱丽丝漫游奇境(AIW)的推理测试可概括如下:
爱丽丝有N个兄弟,
她还有M个姐妹。
爱丽丝的兄弟有多少个姐妹?
从人类视角来看,这个问题其实并不复杂,也许稍加思考就可以得出结论:答案是M+1,即爱丽丝的姐妹数量再加上爱丽丝自己。
不过,如果拿出逻辑放大镜来仔细观察,就会发现:这个推理暗含了一些人们默认的背景知识,如果没有这些背景知识为前提,推理是无法完成的。
完成这个推理需要的背景知识有:
一、爱丽丝是个女孩;
二、爱丽丝的姐妹都是女孩;
三、爱丽丝的兄弟都是男孩;
四、男孩不是女孩;
五、就爱丽丝和她的兄弟姐妹这个讨论范围中的每个人而言,每个女孩都是(除这位女孩自己以外的)其他人的姐妹。
有了这些背景知识,就可以比较顺畅地进行推理了。
基于三、四、五,运用排除法和整体推出部分原理,可以得出第六点——爱丽丝和她的兄弟姐妹这个讨论范围中,所有女孩都是爱丽丝兄弟的姐妹。
再基于一、二、五、六和题干条件,运用简单的加法运算,就可以得出M+1这个结论了。
其实,如果真把这个推理过程完整写出来,需要一些步骤,但是就原理上说,这个推理不算复杂,成人和一定年龄以上的中小学生都可以完成。
那么,人们觉得很简单的推理,
为什么大语言模型集体“不会”了?
这要从大语言模型的原理说起。
当我们向大语言模型提问时,它们所生成的回答其实是一个字符、一个字符“蹦”出来的,每“蹦”出一个字符之前,模型要进行一番概率运算,看看语料库中哪些字符和前面已经生成的字符关联度大,然后从中做出选择。而之所以大语言模型的回答像“人话”,与这些模型做计算依赖的、海量的、由人们的真实会话所构成的语料库息息相关。
要通过爱丽丝漫游奇境推理测试,需要很多对人类而言非常基础的背景知识,以及从测试问题关联到这些知识的能力。可能恰恰由于这些知识和关联过程对人类而言过于“简单自然”,反而很少有人专门去谈论这些话题,所以相关的内容很少出现在语料库中。没了相关语料的喂养,大语言模型自然就“不会”了。
大语言模型备受关注的原因,就在于出色的说“人话”能力。然而,要想与人类真正对话,逻辑推理能力可不能差。除了让科学家们多想想办法之外,也许我们每个人也可以从自己做起,往语料库中多加点逻辑推理的养分,也能让大语言模型变得更“聪明”。
来源:科普时报
作者:张立英 中国科学院哲学研究所教授
编辑:毛梦囡
审核:王飞
终审:尹传红
【霄锋论坛www322888com最新六合资料】 | 【2024澳门六开彩开奖结果查询表】 | 【澳门一码一肖100%】 | 【香港澳门开奖开奖开奖开奖开奖开奖号码】 | 【新澳六开彩资料查询最新网站】 | 【2024年新奥开奖记录查询】 | 【2024新奥历史开奖记录彩票吧】 | 【一特一码一肖】 |
推荐文章
华为发布固态电池专利,新能源技术革新战役号角吹响
其实,如果真把这个推理过程完整写出来,需要一些步骤,但是就原理上说,这个推理不算复杂,成人和一定年龄以上的中小学生都可以完成。...
被嫌弃的海马体,老了3年前,宁夏7岁小女孩一笑走红,后拒百万签约,如今怎么样了?
被研究者们命名为爱丽丝漫游奇境(AIW)的推理测试可概括如下: ...
最终结果公布!特朗普拿下全部7个摇摆州,总票数312票!民主党“内讧”,拜登“背锅”,佩洛西:他该早点退出
五、就爱丽丝和她的兄弟姐妹这个讨论范围中的每个人而言,每个女孩都是(除这位女孩自己以外的)其他人的姐妹。...
脉速跨境丨eBay新增支付宝付款功能;Wayfair首席运营官将卸任
究竟是什么样的简单推理测试, ...
最新评论
盐野瑛久 2024-11-14 16:19
为什么大语言模型集体“不会”了?
IP:69.25.4.*
ZoeNaylor 2024-11-14 14:22
编辑:毛梦囡
IP:57.85.6.*
刘淼 2024-11-14 14:22
这要从大语言模型的原理说起。
IP:37.88.6.*