“世界模型”崛起或不可避免
2026/05/05 | via. 媒体 法国《快报》周刊网站,节选/ 2026.04.01
摘要:迄今为止,它在内容创作、推荐或分析方面表现相当出色,秘诀是基于海量文本数据的大规模训练,几乎涵盖整个互联网。
法国著名人工智能专家杨立昆的技术豪赌,是与当前大语言模型的决裂,同时也为欧洲打开一扇机遇之窗。
号称“万事通”的人工智能也有出错的时候。近几周,一些网友戏弄地问聊天生成预训练转换器(ChatGPT)等人工智能模型:去附近的洗车店或加油站,步行好还是开车好?部分人工智能模型固执地推荐更节俭的步行方案。考虑到出门的目的是去洗车或加油,这个回答实在不够聪明。
同样在最近,人工智能专家们搭建了一个名为“胡扯基准测试”(bullshit bench)的评测,以判断哪家人工智能模型在应对不合逻辑的问题时表现最佳。结果是Anthropic公司(“克劳德”模型)表现尚可,ChatGPT、米斯特拉尔人工智能公司(Mistral)或深度求索(DeepSeek)则不尽如人意。
这件事的深层意义远超表象。当前的生成式人工智能模型受到越来越多的批评。它的运行基于大语言模型,简单来说,就是逐词生成答案。迄今为止,它在内容创作、推荐或分析方面表现相当出色,秘诀是基于海量文本数据的大规模训练,几乎涵盖整个互联网。当你输入“我失手摔了一只水晶花瓶”这句话,它会回答“花瓶碎了”。这并非因为它懂物理,而是因为这种关联在语料库中大量存在。
图灵奖得主杨立昆认为这是一种限制,会阻碍其理解简单现象。这就是它的玻璃天花板。他刚刚为他新成立的先进机器智能实验室(AMI)争取到创纪录的10亿美元融资,用于打造他所说的“世界模型”。
这类模型不再仅仅通过文本数据来学习如何指称事物(比如“指猫为猫”),它们将拥有对猫的具象认知,包括猫的形态、动作,以及(从空中落下时)总能四脚着地的特性。这种空间表征能力,如同人类或动物一般。杨立昆曾略带挑衅地说,“生成式人工智能的智力水平还不到4岁儿童的五十分之一”,在他看来,甚至还不如一只家猫。
因此,“世界模型”的使命截然不同。阿蒂法公司人工智能负责人阿南·瓦赞解释道:“它不再试图预测一个词,而是预测一种状态、一个情境。”尽管杨立昆是这一理念最积极的推动者之一,但这个想法并非完全出自他。
上世纪90年代,德国学者于尔根·施米德胡贝就发表了关于智能体如何构建环境预测性表征的早期研究。众多研究实验室和企业纷纷投身该领域,包括“深层思维”公司(DeepMind)和研究自动驾驶的“出行新方式”公司(Waymo)。人工智能领域另一位重量级人物、计算机视觉专家李飞飞也通过其初创公司世界实验室公司布局该领域。
不过,在这场竞赛中手握多张王牌的还是杨立昆。他是卷积神经网络系统的奠基人之一。这套系统最初用于读取银行支票上的手写数字,被美国银行实际部署,后来发展为图像识别技术。
杨立昆清楚如何提取有用信息来训练模型。这些模型不再仅依赖文本,还会使用视频片段、图像、物理传感器数据,甚至电子游戏内容。布鲁塞尔自由大学计算机科学教授于格·贝尔西尼认为:“相比于大语言模型,世界模型更接近卷积神经网络,更接近10年前我们做的人工智能。”杨立昆之前在Meta任职期间研发过名为JEPA的架构,其目标正是摆脱语言模型,以便更好地理解现实世界。
此外,杨立昆还得到巨大支持。他此次融资是欧洲所有科技领域规模最大的融资之一,这本身就是证明。因为这一方向已是大势所趋,尤其对人形机器人的发展至关重要。这些机器人的移动和行动虽然越来越灵活,但很难执行预先训练以外的任务。巴黎高等师范学院计算机科学教授让·蓬斯指出:“它们在规划能力上仍不成熟。”
也就是说,它们还缺乏预测每个微小动作以达成特定目标的能力。比如做一盘简单的意面,需要完成多个微任务:拿锅、烧水、下面,然后等待一段时间。一旦出现意外,比如锅不在原位,就要重新规划。这是人类与生俱来的能力,“世界模型”就是要模仿这种能力。
凯辉创新基金是杨立昆AMI的主要投资方之一。该基金负责人丹尼斯·巴里耶预言:“五六年后,机器人将进入家庭维修管道,进入商店整理货架。”
挑战依然众多。巴里耶承认,关于“世界模型”的文献仍然很少,也没有像大语言模型那样常态化使用的基准测试。
“世界模型”仍处于萌芽阶段,其最终形态或许如杨立昆所设想的那样,或许不是。因此不能过早埋葬大语言模型。
于格·贝尔西尼认为:“杨立昆知道自己在大语言模型竞赛中落败,于是贬低它们。但大语言模型依然非常出色。”