本文转载于李飞飞的substack新文章。豆包翻译版。

李飞飞 1976 年生于北京,有美国三院院士头衔,被誉为 “AI 教母”。16 岁随父母移民美国,后获加州理工学院博士学位。2007 年她发起的 ImageNet 数据集,成了人脸识别等 AI 技术的基石。她曾任谷歌副总裁,现任斯坦福大学教授,2024 年创办 WorldLabs,近期还推出了实时生成式世界模型。
从文字到世界:空间智能是人工智能的下一个前沿
李飞飞
2025年11月10日
1950年,当计算机还仅仅是自动化算术运算和简单逻辑处理的工具时,艾伦·图灵提出了一个至今仍回响不绝的问题:机器能思考吗?他凭借非凡的想象力预见了一种可能性——智能或许有一天可以被创造出来,而非天生就有。这一洞见后来催生了一场名为人工智能(AI)的不懈科学探索。在我投身人工智能领域的25年里,图灵的愿景依然激励着我。但我们如今离这个目标有多近呢?答案并非简单明了。
如今,以大型语言模型(LLMs)为代表的领先人工智能技术已经开始改变我们获取和处理抽象知识的方式。然而,它们就像“黑暗中的词匠”——能言善辩却缺乏经验,知识渊博却脱离实际。空间智能将改变我们创造并与真实及虚拟世界互动的方式,为叙事、创造力、机器人技术、科学发现等领域带来革命性变革。这是人工智能的下一个前沿。
自进入该领域以来,对视觉和空间智能的追求一直是指引我的北极星。这也是我多年来致力于构建ImageNet的原因——这是首个大规模视觉学习与基准测试数据集,与神经网络算法、图形处理器(GPUs)等现代计算技术一起,成为催生现代人工智能的三大关键要素。这也是我在斯坦福大学的学术实验室斯坦福视觉与学习实验室过去十年里致力于将计算机视觉与机器人学习相结合的原因。更是我与联合创始人贾斯汀·约翰逊、克里斯托夫·拉斯纳、本·米尔登霍尔在一年多前创立World Labs的原因——为了首次全面实现这一可能性。
在本文中,我将阐释什么是空间智能、它为何重要,以及我们如何构建能解锁空间智能的世界模型——其影响将重塑创造力、具身智能和人类进步。
空间智能:人类认知的支架
人工智能从未像现在这样令人振奋。以大型语言模型为代表的生成式人工智能模型已从研究实验室走入日常生活,成为数十亿人用于创造、提升生产力和沟通的工具。它们展现出了曾经被认为不可能的能力,能轻松生成连贯的文本、大量代码、逼真的图像,甚至短视频片段。人工智能是否会改变世界已不再是问题。从任何合理的定义来看,它已经做到了。
然而,仍有许多目标远未实现。自主机器人的愿景虽引人入胜,却仍停留在推测阶段,远非未来学家长期承诺的那种日常生活的固定组成部分。在疾病治疗、新材料发现、粒子物理等领域加速研究的梦想在很大程度上仍未实现。而真正理解并赋能人类创造者——无论是学习复杂分子化学概念的学生、构思空间的建筑师、构建世界的电影人,还是任何寻求完全沉浸式虚拟体验的人——这一人工智能的承诺仍未兑现。
要弄清楚为何这些能力难以实现,我们需要审视空间智能是如何进化的,以及它如何塑造我们对世界的理解。
视觉长期以来是人类智能的基石,但其力量源于更根本的东西。早在动物能够筑巢、照顾幼崽、用语言交流或建立文明之前,这种从外部世界获取信息的简单行为——无论是一丝光线还是一种触感——就在感知和生存之间架起了一座桥梁,并且随着世代更替,这座桥梁变得越来越牢固和复杂。从这座桥梁上,一层又一层的神经元生长出来,形成了神经系统,用于解读世界并协调有机体与周围环境的互动。因此,许多科学家推测,感知和行动构成了驱动智能进化的核心循环,是大自然创造我们这个物种——感知、学习、思考和行动的终极体现——的基础。
空间智能在定义我们与物理世界的互动方式中起着根本性作用。每天,我们在最普通的行为中都依赖它:通过想象保险杠与路边之间逐渐缩小的间隙来停车、接住扔过房间的一串钥匙、在拥挤的人行道上行走而不碰撞,或者睡眼惺忪地不用看就把咖啡倒进杯子里。在更极端的情况下,消防员在浓烟弥漫、不断坍塌的建筑物中导航,凭借对稳定性和生存的瞬间判断,通过手势、肢体语言以及一种无法用语言描述的专业直觉进行交流。孩子们在会说话前的几个月甚至几年里,都在通过与环境的嬉戏互动来了解世界。所有这些都在直觉中自动发生——而机器尚未具备这种流畅性。
空间智能也是我们想象力和创造力的基础。讲故事的人在脑海中构建独特而丰富的世界,并利用多种视觉媒介将其呈现给他人,从古老的洞穴壁画到现代电影再到沉浸式视频游戏。无论是孩子们在海滩上堆沙堡,还是在电脑上玩《我的世界》,以空间为基础的想象力都是真实或虚拟世界中互动体验的基础。在许多行业应用中,对物体、场景和动态交互环境的模拟支撑着无数关键业务用例,从工业设计到数字孪生再到机器人训练。
历史上有许多定义文明的时刻,空间智能都发挥了核心作用。在古希腊,埃拉托色尼将阴影转化为几何——在亚历山大城测量到7度角的同时,西奈城的太阳没有投下阴影——以此计算出地球的周长。哈格里夫斯的“珍妮纺纱机”通过一项空间洞察彻底改变了纺织业:在一个框架内并排布置多个纺锤,使一名工人能够同时纺多根线, 生产力提高了八倍。沃森和克里克通过物理构建3D分子模型发现了DNA的结构,他们操纵金属板和金属线,直到碱基对的空间排列吻合为止。在每一个案例中,当科学家和发明家必须操纵物体、可视化结构并对物理空间进行推理时,空间智能都推动了文明的进步——而这些都无法仅用文字来描述。
空间智能是我们认知构建的支架。 无论是被动观察还是主动创造,它都在发挥作用。它驱动着我们的推理和规划,即使是在最抽象的话题上。它对于我们与他人(无论是言语上还是身体上)以及与环境本身的互动方式至关重要。虽然我们大多数人并非每天都能像埃拉托色尼那样揭示新的真理,但我们确实在以同样的方式思考——通过感官感知复杂的世界,然后利用对其在物理和空间层面运作方式的直觉理解来理解世界。
不幸的是,如今的人工智能还不能以这种方式思考。
过去几年确实取得了巨大进展。多模态大型语言模型(MLLMs)除了文本数据外,还通过海量多媒体数据进行训练,引入了一些基本的空间感知能力,如今的人工智能能够分析图片、回答有关图片的问题,并生成超逼真的图像和短视频。通过传感器和触觉技术的突破,我们最先进的机器人能够在高度受限的环境中开始操纵物体和工具。
然而,坦率地说,人工智能的空间能力仍远未达到人类水平。其局限性很快就会显现出来。最先进的多模态大型语言模型在估计距离、方向和大小,或者通过从新角度重新生成物体来“在脑海中”旋转物体方面,表现很少能比随机猜测好。它们无法导航迷宫、识别捷径或预测基本的物理现象。人工智能生成的视频——虽然尚处于初级阶段且确实很酷——但往往在几秒钟后就失去连贯性。
虽然当前最先进的人工智能在阅读、写作、研究和数据模式识别方面表现出色,但这些模型在表示或与物理世界互动时存在根本性限制。我们对世界的看法是整体性的——不仅包括我们所看到的,还包括万物之间的空间关系、其意义以及重要性。通过想象、推理、创造和互动——而不仅仅是描述——来理解这一点,是空间智能的力量所在。没有空间智能,人工智能就与它试图理解的物理现实脱节。它无法有效地为我们驾驶汽车、在家庭和医院中引导机器人、为学习和娱乐提供全新的沉浸式和互动体验,也无法加速材料科学和医学领域的发现。
哲学家维特根斯坦曾写道:“我的语言的极限意味着我的世界的极限。”我不是哲学家。但我至少知道,对于人工智能而言,除了文字之外还有更多东西。空间智能代表着语言之外的前沿——这种能力连接着想象力、感知和行动,为机器真正改善人类生活开辟了可能性,从医疗健康到创造力,从科学发现到日常协助。
人工智能的下一个十年:构建真正具有空间智能的机器
那么,我们如何构建具有空间智能的人工智能呢?要打造出能够像埃拉托色尼那样进行视觉推理、像工业设计师那样精确设计、像讲故事的人那样富有想象力地创造、像急救人员那样流畅地与环境互动的模型,道路是什么样的呢?
构建具有空间智能的人工智能需要比大型语言模型更宏大的东西:世界模型,这是一种新型生成模型,其理解、推理、生成以及与语义、物理、几何和动态复杂的虚拟或真实世界互动的能力,远远超出了当今大型语言模型的范围。这个领域尚处于萌芽阶段,当前的方法涵盖了从抽象推理模型到视频生成系统等多个方面。World Labs于2024年初成立,正是基于这样一种信念:基础方法仍在确立之中,这使其成为未来十年的决定性挑战。
在这个新兴领域,最重要的是确立指导发展的原则。对于空间智能,我通过三项基本能力来定义世界模型:
- 生成性:世界模型能够生成具有感知、几何和物理一致性的世界
能够解锁空间理解和推理的世界模型本身也必须能够生成模拟世界。它们必须能够生成无穷无尽、多种多样的模拟世界,这些世界遵循语义或感知指令,同时保持几何、物理和动态的一致性——无论是代表真实空间还是虚拟空间。研究界正在积极探索这些世界是否应该根据固有的几何结构进行隐式或显式表示。此外,除了强大的潜在表示外,我认为通用世界模型的输出还必须能够为许多不同的用例生成世界的明确、可观察状态。特别是,它对现在的理解必须与其过去——导致当前状态的世界先前状态——紧密相连。
- 多模态:世界模型在设计上就是多模态的
就像动物和人类一样,世界模型应该能够处理多种形式的输入——在生成式人工智能领域被称为“提示”。给定部分信息——无论是图像、视频、深度图、文本指令、手势还是动作——世界模型应该能够预测或生成尽可能完整的世界状态。这需要以真实视觉的保真度处理视觉输入,同时以同等能力解读语义指令。这使智能体和人类都能通过多种输入与模型就世界进行交流,并获得多种输出作为回应。
- 交互性:世界模型能够基于输入的动作输出下一个状态
最后,如果动作和/或目标是世界模型提示的一部分,其输出必须包括世界的下一个状态,可以是隐式的也可以是显式的。当仅给定一个动作(无论是否带有目标状态)作为输入时,世界模型应生成与世界先前状态、预期目标状态(如果有的话)及其语义含义、物理定律和动态行为一致的输出。随着具有空间智能的世界模型在推理和生成能力上变得更强大、更稳健,可以想象,在给定目标的情况下,世界模型本身不仅能够预测世界的下一个状态,还能基于新状态预测下一个动作。
这一挑战的范围超出了人工智能以往所面临的任何挑战。
语言只是人类认知中一种纯粹的生成现象,而世界的运作遵循着复杂得多的规则。例如,在地球上,重力支配着运动,原子结构决定了光如何产生颜色和亮度,无数物理定律约束着每一次相互作用。即使是最奇特、最具创造性的世界,也由遵循定义它们的物理定律和动态行为的空间物体和智能体组成。要始终如一地协调所有这些——语义、几何、动态和物理方面——需要全新的方法。表示一个世界的维度比表示语言这样的一维序列信号复杂得多。要实现具有我们人类所拥有的那种通用能力的世界模型,需要克服几个艰巨的技术障碍。在World Labs,我们的研究团队致力于在实现这一目标方面取得根本性进展。
以下是我们当前的一些研究课题示例:
- 一种新的、通用的训练任务函数:定义一个像大型语言模型中的下一个token预测那样简单而优雅的通用任务函数,长期以来一直是世界模型研究的核心目标。其输入和输出空间的复杂性使得这种函数的制定本质上更加困难。但尽管仍有许多有待探索之处,这个目标函数和相应的表示必须反映几何和物理定律,尊重世界模型作为想象力和现实的基础表示的基本性质。
- 大规模训练数据:训练世界模型需要比文本处理复杂得多的数据。好消息是:海量数据源已经存在。互联网规模的图像和视频集合代表了丰富、可访问的训练材料——挑战在于开发能够从这些基于二维图像或视频帧的信号(即RGB)中提取更深层次空间信息的算法。过去十年的研究表明,在语言模型中,数据量和模型大小之间的缩放定律具有强大的力量;世界模型的关键突破在于构建能够以相当规模利用现有视觉数据的架构。此外,我不会低估高质量合成数据以及深度和触觉等附加模态信息的力量。它们在训练过程的关键步骤中对互联网规模的数据起到补充作用。但前进的道路取决于更好的传感器系统、更稳健的信号提取算法以及更强大的神经模拟方法。
- 新的模型架构和表示学习:世界模型研究将不可避免地推动模型架构和学习算法的进步,特别是超越当前的多模态大型语言模型和视频扩散范式。这两种模型通常将数据 token 化为一维或二维序列,这使得简单的空间任务变得不必要地困难——比如计算短视频中独特椅子的数量,或者记住一个小时前房间的样子。替代架构可能会有所帮助,例如用于 token 化、上下文和记忆的 3D 或 4D 感知方法。例如,在 World Labs,我们最近关于名为 RTFM 的实时生成帧模型的工作就展示了这种转变,它使用基于空间的帧作为空间记忆的一种形式,以实现高效的实时生成,同时保持生成世界的持久性。
显然,在通过世界建模充分解锁空间智能之前,我们仍面临着严峻的挑战。这项研究不仅仅是一项理论练习。它是一类新型创意和生产力工具的核心引擎。World Labs 内部的进展令人鼓舞。我们最近向有限数量的用户展示了 Marble,这是第一个可以通过多模态输入提示生成并维护一致的 3D 环境的世界模型,供用户和讲故事的人探索、互动和在其创作流程中进一步构建。我们正努力尽快将其向公众开放!
Marble 只是我们创建真正具有空间智能的世界模型的第一步。随着进展加速,研究人员、工程师、用户和企业领导者都开始认识到其非凡潜力。下一代世界模型将使机器在全新的水平上实现空间智能——这一成就将解锁当今人工智能系统中仍然严重缺失的基本能力。
利用世界模型构建更美好的人类世界
是什么推动人工智能的发展至关重要。 作为帮助开启现代人工智能时代的科学家之一,我的动机一直很明确:人工智能必须增强人类能力,而不是取代人类。多年来,我一直致力于使人工智能的开发、部署和治理与人类需求保持一致。如今,关于技术乌托邦和世界末日的极端说法层出不穷,但我仍然持更务实的观点:人工智能由人开发、为人所用、由人治理。它必须始终尊重人的能动性和尊严。它的魔力在于扩展我们的能力,使我们更具创造力、联系更紧密、更高效、更有成就感。空间智能就体现了这一愿景——这种人工智能赋能人类创造者、护理者、科学家和梦想家,让他们实现曾经不可能的目标。正是这种信念驱使我致力于将空间智能作为人工智能的下一个伟大前沿。
空间智能的应用跨越不同的时间线。创意工具现已出现——World Labs 的 Marble 已经将这些能力交到创作者和讲故事的人手中。机器人技术代表着一个雄心勃勃的中期目标,因为我们正在完善感知和行动之间的循环。最具变革性的科学应用将需要更长时间,但有望对人类的繁荣产生深远影响。
在所有这些时间线上,有几个领域因其重塑人类能力的潜力而脱颖而出。这需要巨大的集体努力,远非单个团队或公司所能完成。它需要整个人工智能生态系统的参与——研究人员、创新者、企业家、公司,甚至政策制定者——朝着一个共同的愿景努力。但这个愿景值得追求。以下是未来的前景:
创造力:为叙事和沉浸式体验赋能
“创造力是智能在玩乐。”这是我个人偶像阿尔伯特·爱因斯坦的一句名言,也是我最喜欢的名言之一。早在书面语言出现之前,人类就开始讲故事——将它们画在洞穴壁上,代代相传,在共同的叙事之上构建整个文化。故事是我们理解世界、跨越时空建立联系、探索人性意义,以及最重要的是,在自己内心找到生活和爱的意义的方式。如今,空间智能有潜力改变我们创造和体验叙事的方式,尊重其根本重要性,并将其影响从娱乐扩展到教育、从设计扩展到建筑。
World Labs 的 Marble 平台将把前所未有的空间能力和编辑可控性交到电影制作人、游戏设计师、建筑师和各种讲故事的人手中,使他们能够快速创建和迭代可完全探索的 3D 世界,而无需传统 3D 设计软件的繁琐操作。创作行为仍然像以往一样重要且具有人文性;人工智能工具只是放大和加速了创作者的成就。这包括:
- 新维度的叙事体验:电影制作人和游戏设计师正在使用 Marble 创造整个世界,不受预算或地理限制,探索各种场景和视角,而这在传统制作流程中是难以实现的。随着不同形式的媒体和娱乐之间的界限变得模糊,我们正在接近全新的互动体验形式,融合了艺术、模拟和游戏——个性化的世界,在这里,不仅仅是工作室,任何人都可以创建和栖息在自己的故事中。随着将概念和故事板快速转化为完整体验的新方法不断涌现,叙事将不再局限于单一媒介,创作者可以自由地构建在无数平台和界面上具有共同主线的世界。
- 通过设计实现空间叙事:本质上,几乎所有制造的物体或建造的空间在物理创建之前都必须在虚拟 3D 中进行设计。这个过程具有高度的迭代性,在时间和金钱方面都成本高昂。有了空间智能模型,建筑师可以在投入数月时间进行设计之前快速可视化结构,在尚未存在的空间中漫步——本质上是讲述我们可能如何生活、工作和聚集的故事。工业和时尚设计师可以立即将想象力转化为形态,探索物体如何与人体和空间相互作用。
- 新的沉浸式和互动体验:体验本身是我们作为一个物种创造意义的最深刻方式之一。在整个人类历史中,只有一个独特的 3D 世界:我们都共享的物理世界。仅在最近几十年,通过游戏和早期虚拟现实(VR),我们才开始瞥见共享我们自己创造的替代世界意味着什么。现在,空间智能与新的设备形式(如 VR 和扩展现实(XR)头显以及沉浸式显示器)相结合,以前所未有的方式提升了这些体验。我们正在接近这样一个未来:进入完全实现的多维世界变得像打开一本书一样自然。空间智能使世界构建不仅对拥有专业制作团队的工作室开放,也对个人创作者、教育工作者和任何有愿景想要分享的人开放。
机器人技术:具身智能的实践
从昆虫到人类,动物都依赖空间智能来理解、导航和与它们的世界互动。机器人也不会例外。具有空间感知能力的机器从该领域诞生之初就是梦想,包括我在斯坦福大学研究实验室与学生和合作者所做的工作。这也是我对利用 World Labs 正在构建的这类模型实现它们的可能性感到如此兴奋的原因。
- 通过世界模型扩展机器人学习:机器人学习的进展取决于可行训练数据的可扩展解决方案。鉴于机器人必须学习理解、推理、规划和互动的可能性状态空间巨大,许多人推测,要真正创建具有通用性的机器人,需要结合互联网数据、合成模拟和人类演示的真实世界捕捉。但与语言模型不同,当今机器人研究的训练数据稀缺。世界模型将在这方面发挥决定性作用。随着它们提高感知保真度和计算效率,世界模型的输出可以迅速缩小模拟与现实之间的差距。这反过来将有助于在无数状态、交互和环境的模拟中训练机器人。
- 伙伴和合作者:作为人类合作者的机器人,无论是在实验室协助科学家还是帮助独居老人,都可以扩大急需更多劳动力和生产力的部分工作队伍。但要做到这一点,需要空间智能来感知、推理、规划和行动,而最重要的是,与人类的目标和行为保持共情一致。例如,实验室机器人可以处理仪器,让科学家能够专注于需要灵巧或推理的任务,而家庭助手可以帮助老年人做饭,同时不减少他们的乐趣或自主性。能够预测符合这种期望的下一个状态甚至可能的动作的真正具有空间智能的世界模型,对于实现这一目标至关重要。
- 扩展具身形式:人形机器人在我们为自己构建的世界中发挥作用。但创新的全部益处将来自范围广泛得多的设计:输送药物的纳米机器人、在狭窄空间中导航的软体机器人,以及为深海或外太空建造的机器。无论其形式如何,未来的空间智能模型都必须整合这些机器人所栖息的环境以及它们自身的具身感知和运动。但开发这些机器人的一个关键挑战是,在这些各种各样的具身形式中缺乏训练数据。世界模型将在模拟数据、训练环境和这些努力的基准测试任务中发挥关键作用。
更长远的展望:科学、医疗和教育
除了创意和机器人应用外,空间智能的深远影响还将延伸到人工智能能够增强人类能力、拯救生命和加速发现的领域。下面我重点介绍三个具有深刻变革性的应用领域,不用说,空间智能的用例在更多行业中确实是广泛存在的。
在科学研究中,具有空间智能的系统可以模拟实验、并行测试假设,并探索人类无法进入的环境——从深海到遥远的行星。这项技术可以改变气候科学和材料研究等领域的计算建模。通过将多维模拟与现实世界数据收集相结合,这些工具可以降低计算障碍,并扩展每个实验室可以观察和理解的内容。
在医疗健康领域,空间智能将重塑从实验室到病床的一切。在斯坦福大学,我的学生和合作者多年来一直与医院、老年护理机构和居家患者合作。这段经历让我坚信空间智能在这里的变革潜力。人工智能可以通过多维建模分子相互作用来加速药物发现,通过帮助放射科医生在医学影像中发现模式来增强诊断能力,并启用环境监测系统,在不取代治疗所需的人际联系的情况下支持患者和护理人员,更不用说机器人在许多不同场景中帮助我们的医护人员和患者的潜力了。
在教育领域,空间智能可以实现沉浸式学习,使抽象或复杂的概念变得具体,并创造对我们大脑和身体的学习方式至关重要的迭代体验。在人工智能时代,对于学龄儿童和成年人来说,更快、更有效的学习和技能再培训的需求尤为重要。学生可以探索细胞机制或以多维方式漫步于历史事件中。教师获得通过互动环境个性化教学的工具。专业人士——从外科医生到工程师——可以在逼真的模拟中安全地练习复杂技能。
在所有这些领域,可能性是无限的,但目标始终不变:人工智能增强人类专业知识、加速人类发现、放大人类关怀——而不是取代作为人类核心的判断、创造力和同理心。
结论
过去十年见证了人工智能成为一种全球现象,并在技术、经济甚至地缘政治领域成为一个转折点。但作为一名研究人员、教育工作者,现在还是一名企业家,图灵75年前那个问题背后的精神仍然最能激励我。我仍然与他一样怀有那种 wonder。正是这种精神每天激励着我迎接空间智能的挑战。
历史上第一次,我们准备好建造与物理世界如此协调的机器,以至于我们可以依靠它们作为应对我们面临的最大挑战的真正伙伴。无论是加速我们在实验室中对疾病的理解、彻底改变我们讲故事的方式,还是在我们因疾病、伤害或年龄而最脆弱的时刻支持我们,我们正处于一项能提升我们最关心的生活方面的技术的风口浪尖。这是一个更深刻、更丰富、更有能力的生活愿景。
在大自然在远古动物身上释放出空间智能的第一缕曙光近5亿年后,我们有幸成为有机会赋予机器同样能力的一代技术人员——并有特权利用这些能力为世界各地的人们带来好处。没有空间智能,我们对真正智能机器的梦想就不会完整。
这一追求是我的北极星。加入我,一起去追求它。
