E152｜对话NVIDIA和五源资本：“具身智能”能带领这波机器人热走多远？

Update: 2024-05-28

Description

视觉、语言理解等多模态大模型和仿真训练技术的结合像是给机器人打了鸡血，让它们变得越来越聪明，行动能力越来越强，越来越像人。 “具身智能”的出现，让机器不再仅仅是被动的计算设备，而是能够主动与物理世界互动的智能体。

从创业公司到科技巨头，从软件平台到硬件开发，这场机器人竞赛的参与者越来越多。从特斯拉的Optimus到波士顿动力的Atlas，这些类人形机器人展现了无与伦比的交互能力，实现了从视觉到动作的端到端神经网络闭环。这些进展似乎预示着“莫拉维克悖论”的终结，即机器人在感知和运动任务上的困难正逐步被克服。随着技术成本的降低和成熟度的提高，人形机器人的商业化应用是否已近在咫尺？在这场竞赛中，哪类玩家能够抢占先机？

本期《硅谷101》邀请到了NVIDIA中国区机器人业务负责人李雨倩 (Lily Li) 和五源资本董事总经理陈哲 (Peter Chen)，与大家分享他们对机器人行业的见解，讨论AI加持下的机器人行业有哪些新的工具和技术，还需要经历哪些挑战，才能真正实现规模化和商业化。

【主播】

泓君Jane，硅谷101创始人，播客主理人

【嘉宾】

李雨倩 (Lily Li) ，NVIDIA中国区机器人业务负责人

陈哲 (Peter Chen)，五源资本董事总经理

【你将听到】

03:32 大模型、仿真训练和巨头的入场加速了复杂形态机器人的发展

06:19 SayCan，PaLM-E，RT-2等大模型是突破的关键

08:58 NVIDIA做机器人早有积累：从训练、仿真到推理

15:52 大火的“具身智能”关键在于智能体与外界有交互

21:14 机器人一定要像人吗？有时三个手臂更实用，但“人形”是人类文明的形象承载

26:14 中国的机器人开发者最关心什么时候可以用上GR00T

31:31 物理世界 or 仿真平台：不管在哪里训练机器人，都离不开真实世界数据

37:03 泼个冷水：通用机器人尚无商业化案例

38:49 垂直品类的机器人主要在扫地、仓储搬运、无人机

45:37 现在做通用机器人，难度大于在2005年做特斯拉

46:15 十年：当通用机器人商业化时间超过一家基金的存续期

47:57 让机器人“学会拿杯子”就可以拿诺贝尔奖

51:18 各有所长：中国领先供应链和垂直落地场景、美国擅长探索通用能力

55:10 做机器人要有长期主义心态，在低谷期建立复原能力

56:37 “技术泡沫”也意味着顶级聪明人的聚集和新的商业机会

【相关补充信息】

具身智能

Embodied Artificial Intelligence，是指一种基于物理身体进行感知和行动的智能系统，其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智能行为和适应性。1950年，图灵在其为人工智能奠基、提出图灵测试的经典论文《Computing Machinery and Intelligence》的结尾展望了人工智能可能的两条发展道路：一条路是聚焦抽象计算（比如下棋）所需的智能，另一条路则是为机器配备最好的传感器、使其可以与人类交流、像婴儿一样地进行学习。这两条道路便逐渐演变成了非具身和具身智能。

Project GR00T

NVIDIA 于今年3月发布的人形机器人通用基础模型，GR00T 驱动的机器人（00代表通用机器人00技术）将能够理解自然语言，并通过观察人类行为来模仿动作——快速学习协调、灵活性和其它技能，以便导航、适应现实世界并与之互动。

PaLM-E

PaLM-E是一个由谷歌和柏林工业大学在2023年共同提出的具身多模态语言模型（Embodied Multimodal Language Model）。这个模型能够将现实世界的连续传感器模式直接纳入到已经预训练好的大型语言模型中，从而在单词和感知（words and percepts）之间建立联系，其核心设计理念是将连续的、具身的观察（如图像、状态估计或其他传感器模式）注入到预先训练好的LLM的语言嵌入空间中。

PaLM-SayCan

谷歌研究团队于2022年提出的一种机器人学习算法，结合了大型语言模型与预训练的机器人行为，机器人充当语言模型的“手和眼睛”，语言模型则提供关于任务的高级语义知识。这种方法使得机器人能够根据自然语言指令执行复杂的物理任务，同时确保这些任务在特定的真实世界环境中是可行的。

Google RT-1/RT-2

由Google的机器人研究团队开发的先进机器人学习模型。RT-1（Robotics Transformer 1）是一种视觉语言行动（VLA）模型，RT-2是其进化版本，目标是训练一个端到端的模型，该模型可以直接从机器人的观测到动作，同时利用大规模预训练视觉语言模型的优势。RT-2通过对互联网级别的视觉语言任务进行预训练，然后在真实世界的机器人任务上进行微调，从而获得更好的泛化能力和涌现能力。

【监制】

杜秀

【后期】

AMEI

【Shownotes】

杜秀

【BGM】

Swerve Space - Lama House

Elephanti - Osoku

【在这里找到我们】

公众号：硅谷101

收听渠道：苹果｜小宇宙｜喜马拉雅｜蜻蜓FM｜网易云音乐｜QQ音乐｜荔枝播客

海外用户：Apple Podcast｜Spotify｜TuneIn｜Youtube｜Amazon Music

联系我们：podcast@sv101.net

Comments

Top Podcasts

The Best New Comedy Podcast Right Now – June 2024 The Best News Podcast Right Now – June 2024 The Best New Business Podcast Right Now – June 2024 The Best New Sports Podcast Right Now – June 2024 The Best New True Crime Podcast Right Now – June 2024 The Best New Joe Rogan Experience Podcast Right Now – June 20 The Best New Dan Bongino Show Podcast Right Now – June 20 The Best New Mark Levin Podcast – June 2024

In Channel

E176｜SpaceX 的商业版图与太空经济的崛起

2024-12-2001:09:39

E175｜专访导演方励：人类没有未来

2024-12-1201:11:00

E174｜当巨头们失去了创新力，聊聊如何做一双好鞋

2024-12-0201:01:05

E173｜一个对硅谷教育不满的老师，做了一所自己的学校

2024-11-2254:23

E172｜大选影响下的硅谷：比特币总统、逆行者与反觉醒文化

2024-11-1401:00:17

E171｜濒临破产的23andMe与基因检测行业的新旧交替

2024-11-0701:04:34

E170｜大模型应用之困与异军突起的“埃森哲们”

2024-10-2401:22:28

E169｜特斯拉Robotaxi发布会的台前幕后：兴奋的现场与失望的华尔街

2024-10-1401:12:08

E168｜全息显示的AR眼镜真的来了，聊聊Meta Connect与日趋成熟的XR生态

2024-10-0601:22:10

E167｜聊聊顶流网红做服装：卡戴珊与她的内衣王国Skims

2024-09-2901:11:29

E166｜聊聊火人节与硅谷精神：挑战规则、反叛权威的双生花

2024-09-2001:08:32

活动预告：我们硅谷线下见

2024-09-1902:13

E165｜智能眼镜爆发前夜，与Ray-Ban Meta产品经理聊聊如何打造一款热门AI眼镜

2024-09-0601:20:36

E164｜当电影遇上AI：与好莱坞特效美术聊聊他们和新工具的博弈

2024-08-2259:43

E163｜与大疆Pocket首任产品经理聊聊：如何从无到有定义一款硬件产品？

2024-08-1657:19

E162｜清华姚班如何培养天才：给最有挑战性的问题和足够的自由度

2024-08-0701:03:54

E161｜聊聊大模型如何思考与深度学习科学家Yann LeCun

2024-07-2901:01:29

E160｜重新理解信息茧房：为何科学研究与我们主观感受相反？

2024-07-2452:02

E159｜音乐节经济：不划算但停不下来

2024-07-2001:01:08

E158｜走访锈带：美国大选的反直觉认知与不被看见的人

2024-07-0901:00:03

00:00

E152｜对话NVIDIA和五源资本：“具身智能”能带领这波机器人热走多远？

#box-pro-ellipsis-173506304522812{-webkit-line-clamp:2;}E152｜对话NVIDIA和五源资本：“具身智能”能带领这波机器人热走多远？

E152｜对话NVIDIA和五源资本：“具身智能”能带领这波机器人热走多远？

硅谷101

E152｜对话NVIDIA和五源资本：“具身智能”能带领这波机器人热走多远？