EP 44.【AI年终特辑3】具身智能深度对话：从学术到产业，机器人的ChatGPT时刻来了吗？

Update: 2023-12-29

Description

今年 OnBoard! 最后一期压轴上新！今年要谈论人工智能，怎么能错过这么一个重要的话题：机器人与AI的结合，或者说，Embodied intelligence, 具身智能。

大模型的思路是否能带来机器人的ChatGPT时刻？机器人要具备泛化能力，有哪些进展又有哪些瓶颈？通过机器人让人工智能具备与环境感知和交互的能力，会为通用人工智能AGI带来哪些新的想象空间？

Hello World, who is OnBoard!?

今年下半年以来，尤其在国内，已经有不下十几家具身智能创业公司涌现。这一轮热潮中，从学术到工业落地，如何分别噪音与真实？以前将AI应用于机器人的尝试，比起这次的技术突破，又有哪些相同与不同？

这次的嘉宾阵容，真是太适合回答这些问题了：

我们邀请了 Google DeepMind 的研究员Fei Xia，Deepmind 跟具身智能相关的最重磅的几个研究，从SayCan, PaLM-E，到 RT2，他都是核心参与者。还有来自国内头部机器人创业公司高仙机器人的深度学习总监 Jiaxin, 带来产业界的视角。以及 UCSD 的研究员 Fanbo Xiang，他参与的 Maniskill，SAPIEN 等与模拟环境相关的研究，都在学术前沿。

我们对AI泛化能力在机器人领域的落地进行了深入的讨论，也有不同观点的碰撞，精彩纷呈。

其实这一期的录制已经过去了几个月，阴差阳错成了今年的压轴，也算是对于OnBoard 全年的一个圆满句号，又是整个OnBoard 旅程小小的逗号。新的一年，不论世界如何起落，我们都选择相信未来有希望，珍惜每一次对话，赞美每一个在未知中选择的勇士。

Enjoy!

嘉宾介绍

Fei Xia, Google Deepmind 机器人团队资深研究员，PhD @Stanford University；PaLM-E, PaLM-SayCan, RT-2 作者

Jiaxin Li, 高仙机器人深度学习总监，ex字节跳动研究员，PhD @National University of Singapore

Fanbo Xiang, PhD @UC San Diego；ManiSkill, SAPIEN 作者

OnBoard! 主持：

Monica：美元VC投资人，前 AWS 硅谷团队+ AI 创业公司打工人，公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻：莫妮卡同学

我们都聊了什么

02:47 几位嘉宾的自我介绍，主要的研究领域

05:34 大家最近看到的与具身智能相关的有意思的研究和行业进展

14:23 自动驾驶领域的生成模型，如何保证符合物理规律？

18:34 如何定义具身智能？什么是测试机器人AGI 的“咖啡测试” ？

27:59 梳理 Google Deepmind 机器人领域核心研究脉络：大模型对具身智能带来怎样的影响？

40:29 Fanbo 在做的 low level 控制相关的研究，如何与大模型相结合？

45:39 具身智能的实现目前有哪些主要技术路径？我们什么时候可以达到共识？

50:40 从产业落地的角度，如何看待大模型对机器人领域的影响？有哪些现实的挑战？

67:37 什么时候需要机器人具备通用能力？我们需要端到端的具身智能吗？

72:47 对 Scaling law 的争议：在机器人领域能复现吗？如何平衡长期通用性研究和短期商业落地的需要？

90:41 在具身智能系统的设计中，如何考虑加入人机互动的因素？

96:29 硬件的发展会如何影响具身智能的发展？

101:18 未来3-5年，大家最期望看到具身智能领域实现怎样的突破？有怎样值得期待的未来？

重要论文和词汇

PaLM-E: An Embodied Multimodal Language Model
SayCan: Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
RT-1: Robotics Transformer for Real-World Control at Scale
RT-2: Vision-Language-Action Models
ManiSkill: Learning-from-Demonstrations Benchmark for Generalizable Manipulation Skills
ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills
SAPIEN: A SimulAted Part-based Interactive ENvironment
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models, by Feifei Li
VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding
Scaling laws for neural language models, by OpenAI
Vision Transformer (ViT) - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
ALOHA: A Low-cost Open-source Hardware System for Bimanual Teleoperation, from Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
The Bitter Lesson, by Rich Sutton
MIT PDDL (Planning Domain Definition Language)
sim2real: simulation to reality

我们提到的公司

Wayve.ai: reimagining self-driving with embodied AI
有鹿智能
LoCoBot: An Open Source Low Cost Robot
宇树科技

欢迎关注M小姐的微信公众号，了解更多中美软件、AI与创业投资的干货内容！

M小姐研习录 (ID: MissMStudy)

大家的点赞、评论、转发是对我们最好的鼓励！

如果你能在小宇宙上点个赞，Apple Podcasts 上给个五星好评，就能让更多的朋友看到我们努力制作的内容，打赏请我们喝杯咖啡，就给你比心！

有任何心得和建议，也欢迎在评论区跟我们互动~

Comments

Top Podcasts

The Best New Comedy Podcast Right Now – June 2024 The Best News Podcast Right Now – June 2024 The Best New Business Podcast Right Now – June 2024 The Best New Sports Podcast Right Now – June 2024 The Best New True Crime Podcast Right Now – June 2024 The Best New Joe Rogan Experience Podcast Right Now – June 20 The Best New Dan Bongino Show Podcast Right Now – June 20 The Best New Mark Levin Podcast – June 2024

In Channel

EP 63. 直播回放：什么是开发大模型应用的新一代底层技术栈？对谈贾扬清，PingCAP黄东旭和AWS核心AI产品研发

2024-12-1601:52:52

EP 62. Google Deepmind 与LLM研究员深度解读OpenAI o1 及LLM+强化学习新范式

2024-10-1102:42:51

EP 61. 深度访谈Castbox王小雨：50+款出海产品，5千万月活,播客App如何完成AI转型

2024-09-1901:40:03

EP 60. 全英文对话CRV投资人与LanceDB创始人：向量数据库下半场，大模型和多模态需要怎样的数据基建？

2024-09-1301:54:15

EP 59. 对话硅谷连续创业者梁胜：20年3家公司总并购金额10亿美金，征战GenAI的走心创业思考

2024-09-0601:32:14

EP 58. 你所不知道的AI产品，哪些正在“闷声赚大钱”？| OnBoard! X 十字路口

2024-07-1156:02

EP 57.【听友会实录2】创始人出海实战分享，如何在全球打造百万用户的产品

2024-07-0501:04:28

EP 55. 对话UCSD副教授苏昊：从学术到创业，深度解读具身智能的实现路径

2024-06-1301:47:39

EP 54. 深度对谈顶尖AI开源项目：大模型开源生态, Agent 与中国力量

2024-06-0703:19:06

EP 53. AI Agent会取代程序员吗？硬核对话硅谷顶尖研究员与AI独角兽：软件开发的未来，Agent的技术本质

2024-05-1502:46:45

EP 52. 一线亲历者对谈：生成式AI这一年，中美市场的异同、机会与未来

2024-05-0902:06:18

EP 51. [EN]全英文对话Inworld Al、微软Xbox: AI NPC会成主角吗？AI原生游戏什么时候到来？

2024-03-2801:20:06

EP 50. 中美头部AI应用实战分享：Typeface、Monica如何从0到1，机会、挑战和长期壁垒（下）

2024-03-2101:13:58

EP 49. 中美头部AI应用实战分享：Typeface、Monica如何从0到1，机会、挑战和长期壁垒（上）

2024-03-1901:51:17

EP 48. 对话Lepton AI创始人贾扬清：AI需要怎样的基础设施，模型与应用未来格局

2024-03-1201:26:47