Discover跨国串门儿计划#340.:对话李飞飞与Justin Johnson:超越语言模型,构建理解三维世界的AI新前沿
#340.:对话李飞飞与Justin Johnson:超越语言模型,构建理解三维世界的AI新前沿

#340.:对话李飞飞与Justin Johnson:超越语言模型,构建理解三维世界的AI新前沿

Update: 2025-11-28
Share

Description

📝 本期播客简介

本期我们克隆了知名播客《Latent Space》的深度对话,主持人Alessio Fanelli和Wix邀请到World Labs的两位联合创始人——人工智能领域的先驱李飞飞教授和她的前学生Justin Johnson。李飞飞教授是斯坦福大学以人为本人工智能研究院的创始联席主任,也是ImageNet的奠基人,而Justin Johnson则曾任Meta和密歇根大学教授。他们将带我们深入探讨“世界模型”和“空间智能”这一A I领域的下一个前沿。 对话中,两位嘉宾分享了他们如何从ImageNet时代一路走来,共同创立World Labs,致力于构建一个能理解、推理和生成三维世界的模型。他们隆重介绍了公司首款产品Marble,这是一个能将文本或图片转化为可交互、可编辑三维世界的生成模型,其应用场景横跨游戏、电影、视觉特效、设计乃至机器人训练。节目深入探讨了深度学习中算力规模化的历史、A I“理解”物理规律与“拟合模式”的差异,以及为何空间智能被低估,它与语言智能如何互补共存。这不仅是一场关于前沿技术的讨论,更是一次对A I未来方向的深刻思考,揭示了从像素到空间智能的广阔前景。

翻译克隆自:After LLMs: Spatial Intelligence and World Models — Fei-Fei Li & Justin Johnson, World Labs

👨‍⚕️ 本期嘉宾

李飞飞教授:斯坦福大学以人为本人工智能研究院的创始联席主任,ImageNet的奠基人。

Justin Johnson:World Labs联合创始人,曾任Meta和密歇根大学教授,李飞飞教授的学生。

⏱️ 时间戳

00:00 开场 & 播客简介

World Labs的诞生与愿景

02:10 深度学习的历史与算力规模化:从CPU到GPU的飞跃

02:34 World Labs的首款产品Marble:三维世界的生成模型

03:44 师生情谊:李飞飞与Justin Johnson的缘起

04:00 AlexNet与ImageNet时代:AI从数据中心走向现实世界的转折点

05:15 世界模型的“AlexNet时刻”:数据与算力的爆发式增长

AI研究的生态与未来

06:44 开放科学与产业界:AI生态系统的多样性与挑战

08:01 商业压力下的学术研究:资源失衡与人才流失的担忧

10:57 学术界的新定位:探索“古怪想法”与基础理论

12:36 “古怪想法”的例子:下一代硬件与神经网络架构的结合

从像素到空间智能:技术演进之路

14:53 图像字幕生成:从Andrej到Justin的合作历程

15:46 讲述图像故事的梦想:从ImageNet到密集字幕生成

21:49 空间智能与语言智能的异同:像素与三维世界的本质区别

22:12 像素最大化:文本作为物理实体在现实世界的表现

23:25 AI对物理规律的“理解”:拟合模式与因果定律的差异

25:50 模型“理解”物理的重要性:取决于应用场景

Marble:空间智能的首次亮相

30:22 Marble的定位:空间智能愿景的第一步

31:14 Marble的功能:多模态输入、可编辑性与多样化输出

32:03 Marble的应用场景:游戏、视觉特效、电影与机器人训练

33:03 精确的摄像机控制:三维空间感的自然产物

34:05 Marble的原子单位:高斯splats与实时渲染

35:34 动力学与物理属性:未来Marble 2的潜力

37:26 Splats的密度与分辨率:移动设备与VR头显的限制

38:13 具身智能与机器人训练:Marble在模拟环境中的巨大潜力

40:29 设计领域:Marble在室内设计、厨房改造中的意外应用

空间智能的深层思考

41:29 空间智能的定义:在空间中推理、理解、移动和交互的能力

42:52 空间智能与语言智能的互补性:牛顿定律与具身经验

45:12 视觉被低估:人类感知与空间智能的进化优势

47:15 Winograd Schema Challenge:语言模型在空间智能上的局限

48:03 语言模型与空间智能的协同工作:多模态输入与通用模型

49:01 AI能否从零发现物理定律:地心说与牛顿定律的抽象层次

51:21 不同的学习范式:假设、实验与心智理论

52:34 序列到序列模型与Transformer:技术架构的演进

55:27 招募人才与未来展望

🌟 精彩内容

💡 深度学习的算力飞跃与世界模型

Justin Johnson指出,深度学习的发展史就是算力规模化的历史,从AlexNet到今天,显卡性能提升千倍,模型训练算力更是百万倍增长。这为处理海量视觉和空间数据,构建“世界模型”奠定了基础。

“我觉得深度学习的整个发展史,在某种意义上就是一部算力规模化的历史。”

🚀 Marble:空间智能的首次亮相

World Labs推出了首款产品Marble,一个能将文本或图片转化为可交互、可编辑三维世界的生成模型。它不仅是迈向空间智能宏大愿景的第一步,也已在游戏、电影、视觉特效、设计和机器人训练等领域展现出巨大潜力。

“Marble一方面是朝着空间智能这个宏大愿景迈进的世界模型,另一方面,我们也有意将它设计成一个大家今天就能实际使用的产品。”

🧠 空间智能与语言智能的互补

李飞飞教授强调,空间智能与语言智能是互补的。空间智能是让你在三维空间中进行推理、理解、移动和交互的能力,而人类的感知和空间智能是经过亿万年进化优化的,却常被低估。

“我确实认为空间智能与语言智能是互补的。我们如何定义空间智能呢?它是一种能让你在空间中进行推理、理解、移动和交互的能力。”

🌌 AI对物理规律的“理解”

嘉宾们探讨了AI模型对物理规律的“理解”是拟合模式还是因果定律。他们认为,目前的深度学习仍停留在拟合模式,难以像人类那样建立因果模型。模型能否“理解”物理,取决于其应用场景,在某些情况下,只要“看起来对”就足够。

“但没有任何迹象表明,那种隐式的建模能让你得到关于空间和动力学的因果定律。这正是今天的深度学习和人类智能开始分道扬镳的地方。因为从根本上说,深度学习仍然是在拟合模式。”

🔬 学术界的新角色:探索“古怪想法”

Justin Johnson认为,随着技术规模化,学术界不应再追求训练最大的模型,而应专注于尝试那些“稀奇古怪、全新的、疯狂的想法”,例如探索下一代硬件与神经网络架构的结合,以及大模型理论基础的理解。

“学术界的目标不应该是去训练最大的模型,追求最大规模,而应该是去尝试那些稀奇古怪、全新的、疯狂的想法,其中大部分可能都不会成功。”

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的

使用 AI 进行翻译,因此可能会有一些地方不通顺;

如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

Comments 
In Channel
loading
00:00
00:00
x

0.5x

0.8x

1.0x

1.25x

1.5x

2.0x

3.0x

Sleep Timer

Off

End of Episode

5 Minutes

10 Minutes

15 Minutes

30 Minutes

45 Minutes

60 Minutes

120 Minutes

#340.:对话李飞飞与Justin Johnson:超越语言模型,构建理解三维世界的AI新前沿

#340.:对话李飞飞与Justin Johnson:超越语言模型,构建理解三维世界的AI新前沿