121. 对DeepMind谭捷的访谈：机器人、跨本体、世界模型、Gemini Robotics 1.5和Google

Update: 2025-11-28

Description

</figure>

今天的嘉宾是Google DeepMind机器人团队的高级研究科学家兼技术负责人谭捷，他的研究方向是将基础模型和深度强化学习方法应用于机器人领域。

中美在机器人领域一直存在两种叙事：市场普遍认为，中国在硬件上发展更快，美国在机器人大脑设计上更领先。

本期节目中，谭捷将带我们一窥硅谷视角，尤其是Google DeepMind视角下的机器人前沿叙事。

前不久，他们刚发布了新工作 “Gemini Robotics 1.5 brings AI agents into the physical world”（Gemini Robotics 1.5将AI Agents带入物理世界），我们也聊了聊他们的最新发现。

由于嘉宾工作环境的原因，会出现一定程度的中英夹杂，还大家多多包容和支持。

</figure><figure>

</figure>

02:00 机器人是在真实世界里做图形学，图形学是在simulation里做机器人

嘉宾小传：小时候喜欢打游戏，读博士读的计算机图形学

从图形学转型机器人的变轨

我在Google的第一篇论文《Sim-to-Real: Learning Agile Locomotion For Quadruped Robots》（从仿真到现实：学习四足机器人敏捷运动），开创了强化学习和seem to real在足式机器人上的应用

Paradigm Shift，过去十年第一个是强化学习，第二个是大语言模型

大语言模型对机器人的影响（大语言模型类似大脑，强化学习类似小脑）

13:06 机器人基座大模型到底是不是一个非常独立的学科？So far, not yet

今天的机器人发展到什么阶段了？

从demo到真正落地，隔十年并不是一个非常夸张的事

从我的角度来说，我不得不承认，最近几年的机器人智能发展主要还是依赖于多模态大模型

但多模态模型缺什么呢？缺少robot action的输出

当你真正有一个generalist model（通用模型）的时候，specialized model（专有模型）就完全不能与之竞争

23:44 Robotics最大问题是数据，它在一个非常复杂的unstructured environment里，可以发生任何事情

最大的问题还是数据问题

但是robotics是在一个非常复杂的unstructured environment（非结构化环境）里，可以发生任何事情

它需要极大量的、非常diverse（多元）的数据，但这些数据现在是不存在的

现在有很多startup叫data factory（数据工厂）

所谓“数据金字塔”包括哪些？

27:52 Gemini Robotics 1.5：我们有一个方法叫motion transfer，这是独门秘诀

Gemini Robotics 1.5最重要的发现是什么？

第一个是我们把“thinking”加入了VLA模型

第二个非常重要的突破是cross-embodiment transfer（跨具身迁移）

Gemini Robotics 1.5的工作中，我们做了一个快慢模型的划分

它应该是个过渡的方式，因为现在受制于算力的限制、模型大小的限制

当你要一个unify model（统一模型）的时候，它必须非常大

Motion Transfer？It’s very secret

47:32 生成极大量仿真数据，是弥补它缺点的一个重要手段

我们比较重视的一点还是数据、数据、数据

遥操作是非常难以获取的数据

我们会花更多的精力，比如利用simulation数据，利用human video（人类视频），利用YouTube上的一些数据，甚至利用模型生成的数据，比如VEO生成的一些数据

真实数据没有sim-to-real gap（仿真到现实差距），但是泛化性是由数据的coverage（覆盖）导致的，并不是因为它本身是真实数据还是虚拟数据

在不远的将来，传统物理模拟仿真会慢慢地被生成式模型的仿真所取代

我信仰的是scalable data

01:03:48 世界模型就是Vision-Language-Vision，vision和language in，生成下一帧的图像

世界模型的定义是：如果给上前一帧，再给上机器人的动作，你可以预测下一帧

从另外一个角度，VEO它是一个视频生成模型，但是Genie它更像一个世界模型

当你在每一帧的时候，可以有一个输入来改变你的下一帧，那个感觉就是世界模型；但是如果它是一个已经生成好的、几秒钟的静态视频，那就不是

世界模型其实就是Vision-Language-Vision，vision和language in，它可以生成下一帧的图像

01:08:29 如果你有灵巧手，触觉就非常重要，之所以我前面觉得触觉不重要，是受限于当时的硬件

如果你有灵巧手，触觉就非常重要

之所以我前面觉得触觉不重要，是因为它其实受限于当时的硬件

现在还在夹爪时代

在所有夹爪能完成的任务里，我还是觉得视觉可能可以解决95%的问题

在未来，人形机器人不会成为唯一的形态，但一定是个主流的形态

如果你的目标是solve AGI in the physical world（在物理世界实现AGI），那么我会非常聚焦于最终的形态是什么样子，其他的东西可能都是distraction（干扰）

01:17:35 一个有使命感的人，他不会容忍说“I’m on a wrong ship”

这几年Google AI或者robotics的研究文化上有没有发生过变化？

不管是从promotion、performance review、incentive，还是各种各样的structure上，Google想创造一个环境，使得更多的人可以一起解决更大的事情

像Gemini Robotics，它更多是自上而下

我发觉好像国内不一定比我卷，我一周可能工作70到80个小时

真的，这个时代真的是等不起，不然别人都做出来了

AI有很多是数学，华人数学比较好

</figure>

《106. 和王鹤聊，具身智能的学术边缘史和资本轰炸后的人为乱象》

《109. 机器人遭遇数据荒？与谢晨聊：仿真与合成数据、Meta天价收购和Alexandr Wang》

【更多信息】

本集的文字版本已发布，请搜索我们工作室的官方公众号：

语言即世界language is world

</figure>

Comments

In Channel

121. 对DeepMind谭捷的访谈：机器人、跨本体、世界模型、Gemini Robotics 1.5和Google

2025-11-2802:06:15

120. 小鹏新上任的刘先明首次访谈：Language是毒药、拆掉L、简单即美、换帅、小鹏的AI转型

2025-11-1801:48:45

119. Kimi Linear、Minimax M2？和杨松琳考古算法变种史，并预演未来架构改进方案

2025-11-0301:43:25

118. 对李想的第二次3小时访谈：CEO大模型、MoE、梁文锋、VLA、能量、记忆、对抗人性、亲密关系、人类的智慧

2025-10-3002:46:22

117. 开源一段论文探索之旅：模型范式、Infra和数据、语言、多模态的完整变迁史

2025-10-2804:22:37

116. 吴明辉口述19年史：漫长的沉浮、痛苦急转、企业级Agentic Model、现实世界的数值游戏、IPO

2025-10-0903:47:45

115. 对OpenAI姚顺雨3小时访谈：6年Agent研究、人与系统、吞噬的边界、既单极又多元的世界

2025-09-1102:31:32

114. 与殷一、欧迪聊聊萨洛蒙：中国意外的增长阀门、小众越野跑与少女故事

2025-09-0601:18:27

113. 和杨植麟时隔1年的对话：K2、Agentic LLM、缸中之脑和“站在无限的开端”

2025-08-2701:41:13

112. 和广密聊大模型季报：分化与收敛、全家桶与垂直整合、L4体验与挖矿窗口

2025-08-1801:09:11

111. 李一帆口述激光雷达11年创业史：你仔细想行业的机会来自哪？是国家、民族的机会

2025-08-0703:08:32

110. 逐段讲解Kimi K2报告并对照ChatGPT Agent、Qwen3-Coder等：“系统工程的力量”

2025-07-3002:20:45

109. 机器人遭遇数据荒？与谢晨聊：仿真与合成数据、Meta天价收购和Alexandr Wang

2025-07-1501:41:09

108. 余凯口述30年史：世界不止刀光剑影，是一部人来人往的江湖故事

2025-07-0702:57:07

107. 和梦秋的catch-up：创投挺无聊，也聊聊旅行读书和女性主义

2025-06-2901:30:07

106. 和王鹤聊，具身智能的学术边缘史和资本轰炸后的人为乱象

2025-06-2202:38:52

105. 和奔驰王忻聊，产业大转折下的德国汽车、话语权和技术battle

2025-06-1901:32:15

104. 和Rokid祝铭明聊，吴妈、阿里、硬件创业黑森林的第11年

2025-06-1502:08:56

103. Lovart创始人陈冕复盘应用创业这两年：这一刻就是好爽啊！！哈哈哈哈哈

2025-06-0801:45:27

102. 和张祥雨聊，多模态研究的挣扎史和未来两年的2个“GPT-4时刻”

2025-06-0202:28:58

00:00

121. 对DeepMind谭捷的访谈：机器人、跨本体、世界模型、Gemini Robotics 1.5和Google

#box-pro-ellipsis-176520530051316{-webkit-line-clamp:2;}121. 对DeepMind谭捷的访谈：机器人、跨本体、世界模型、Gemini Robotics 1.5和Google

121. 对DeepMind谭捷的访谈：机器人、跨本体、世界模型、Gemini Robotics 1.5和Google

121. 对DeepMind谭捷的访谈：机器人、跨本体、世界模型、Gemini Robotics 1.5和Google