Discover张小珺Jùn|商业访谈录121. 对DeepMind谭捷的访谈:机器人、跨本体、世界模型、Gemini Robotics 1.5和Google
121. 对DeepMind谭捷的访谈:机器人、跨本体、世界模型、Gemini Robotics 1.5和Google

121. 对DeepMind谭捷的访谈:机器人、跨本体、世界模型、Gemini Robotics 1.5和Google

Update: 2025-11-28
Share

Description

<figure></figure>

今天的嘉宾是Google DeepMind机器人团队的高级研究科学家兼技术负责人谭捷,他的研究方向是将基础模型和深度强化学习方法应用于机器人领域。

中美在机器人领域一直存在两种叙事:市场普遍认为,中国在硬件上发展更快,美国在机器人大脑设计上更领先。

本期节目中,谭捷将带我们一窥硅谷视角,尤其是Google DeepMind视角下的机器人前沿叙事。

前不久,他们刚发布了新工作 “Gemini Robotics 1.5 brings AI agents into the physical world”(Gemini Robotics 1.5将AI Agents带入物理世界),我们也聊了聊他们的最新发现。

由于嘉宾工作环境的原因,会出现一定程度的中英夹杂,还大家多多包容和支持。

<figure></figure><figure></figure><figure></figure>
02:00 机器人是在真实世界里做图形学,图形学是在simulation里做机器人

嘉宾小传:小时候喜欢打游戏,读博士读的计算机图形学

从图形学转型机器人的变轨

我在Google的第一篇论文《Sim-to-Real: Learning Agile Locomotion For Quadruped Robots》(从仿真到现实:学习四足机器人敏捷运动),开创了强化学习和seem to real在足式机器人上的应用

Paradigm Shift,过去十年第一个是强化学习,第二个是大语言模型

大语言模型对机器人的影响(大语言模型类似大脑,强化学习类似小脑)

13:06 机器人基座大模型到底是不是一个非常独立的学科?So far, not yet

今天的机器人发展到什么阶段了?

从demo到真正落地,隔十年并不是一个非常夸张的事

从我的角度来说,我不得不承认,最近几年的机器人智能发展主要还是依赖于多模态大模型

但多模态模型缺什么呢?缺少robot action的输出

当你真正有一个generalist model(通用模型)的时候,specialized model(专有模型)就完全不能与之竞争

23:44 Robotics最大问题是数据,它在一个非常复杂的unstructured environment里,可以发生任何事情

最大的问题还是数据问题

但是robotics是在一个非常复杂的unstructured environment(非结构化环境)里,可以发生任何事情

它需要极大量的、非常diverse(多元)的数据,但这些数据现在是不存在的

现在有很多startup叫data factory(数据工厂)

所谓“数据金字塔”包括哪些?

27:52 Gemini Robotics 1.5:我们有一个方法叫motion transfer,这是独门秘诀

Gemini Robotics 1.5最重要的发现是什么?

第一个是我们把“thinking”加入了VLA模型

第二个非常重要的突破是cross-embodiment transfer(跨具身迁移)

Gemini Robotics 1.5的工作中,我们做了一个快慢模型的划分

它应该是个过渡的方式,因为现在受制于算力的限制、模型大小的限制

当你要一个unify model(统一模型)的时候,它必须非常大

Motion Transfer?It’s very secret

47:32 生成极大量仿真数据,是弥补它缺点的一个重要手段

我们比较重视的一点还是数据、数据、数据

遥操作是非常难以获取的数据

我们会花更多的精力,比如利用simulation数据,利用human video(人类视频),利用YouTube上的一些数据,甚至利用模型生成的数据,比如VEO生成的一些数据

真实数据没有sim-to-real gap(仿真到现实差距),但是泛化性是由数据的coverage(覆盖)导致的,并不是因为它本身是真实数据还是虚拟数据

在不远的将来,传统物理模拟仿真会慢慢地被生成式模型的仿真所取代

我信仰的是scalable data

01:03:48 世界模型就是Vision-Language-Vision,vision和language in,生成下一帧的图像

世界模型的定义是:如果给上前一帧,再给上机器人的动作,你可以预测下一帧

从另外一个角度,VEO它是一个视频生成模型,但是Genie它更像一个世界模型

当你在每一帧的时候,可以有一个输入来改变你的下一帧,那个感觉就是世界模型;但是如果它是一个已经生成好的、几秒钟的静态视频,那就不是

世界模型其实就是Vision-Language-Vision,vision和language in,它可以生成下一帧的图像

01:08:29 如果你有灵巧手,触觉就非常重要,之所以我前面觉得触觉不重要,是受限于当时的硬件

如果你有灵巧手,触觉就非常重要

之所以我前面觉得触觉不重要,是因为它其实受限于当时的硬件

现在还在夹爪时代

在所有夹爪能完成的任务里,我还是觉得视觉可能可以解决95%的问题

在未来,人形机器人不会成为唯一的形态,但一定是个主流的形态

如果你的目标是solve AGI in the physical world(在物理世界实现AGI),那么我会非常聚焦于最终的形态是什么样子,其他的东西可能都是distraction(干扰)

01:17:35 一个有使命感的人,他不会容忍说“I’m on a wrong ship”

这几年Google AI或者robotics的研究文化上有没有发生过变化?

不管是从promotion、performance review、incentive,还是各种各样的structure上,Google想创造一个环境,使得更多的人可以一起解决更大的事情

像Gemini Robotics,它更多是自上而下

我发觉好像国内不一定比我卷,我一周可能工作70到80个小时

真的,这个时代真的是等不起,不然别人都做出来了

AI有很多是数学,华人数学比较好

<figure></figure>

《106. 和王鹤聊,具身智能的学术边缘史和资本轰炸后的人为乱象》

《109. 机器人遭遇数据荒?与谢晨聊:仿真与合成数据、Meta天价收购和Alexandr Wang》

【更多信息】

本集的文字版本已发布,请搜索我们工作室的官方公众号:

语言即世界language is world

<figure></figure>
Comments 
In Channel
loading
00:00
00:00
x

0.5x

0.8x

1.0x

1.25x

1.5x

2.0x

3.0x

Sleep Timer

Off

End of Episode

5 Minutes

10 Minutes

15 Minutes

30 Minutes

45 Minutes

60 Minutes

120 Minutes

121. 对DeepMind谭捷的访谈:机器人、跨本体、世界模型、Gemini Robotics 1.5和Google

121. 对DeepMind谭捷的访谈:机器人、跨本体、世界模型、Gemini Robotics 1.5和Google