EP 55. 对话UCSD副教授苏昊：从学术到创业，深度解读具身智能的实现路径

Update: 2024-06-13

Description

这次依旧是硬核话题，我们跟学术大牛深度聊聊2024年上半年美国创投圈最火的的话题之一，具身智能。

没错，智能机器人之火终于从国内来到美国了。在去年下半年的时候，美国创投界还是在关注大模型和应用、infra等等，虽然Deepmind RT-2 等工作彼时已经崭露头角，更喜欢软件的美国VC似乎还在犹豫机器人这个太硬的赛道。但是从今年上半年开始，事情似乎有了变化。

Hello World, who is OnBoard!?

除了Figure AI 这样的人形机器人公司获得了英伟达、微软等一系列战投的加持，硅谷的老牌基金们也疯狂涌入了所谓的机器人大模型公司，比如学术大牛创立的 Physical intelligence, Skild, 还有 Cruise 前CEO 创立的Bot company, 等等。

这次的嘉宾也是大名鼎鼎，UCSD 计算机科学副教授，苏昊老师，关注具身智能和3D视觉领域的同学应该都不陌生。他参与的一系列AI数据集和软件工作，从ImageNet到ShapeNet、PointNet、SAPIEN，以及最近的ManiSkill等等，都是三维视觉、机器人操作等领域穿越几个时代的标志性作品。苏昊老师现在还是智能机器人创业公司Hillbot 的联合创始人，我们深度探讨了：

过去一年，我们从学术界、工业界讨论的种种话题，又有了哪些新的进展？
大模型的发展如何影响具身智能的不同技术路径？
大模型带来的泛化能力，跟硬件、控制系统等，又会怎样相互作用？
机器人模型里的数据问题，有哪些解决方案？

具身智能这个看似很纷繁的话题，苏昊老师总是能抽丝剥茧，相信你们也能从我们两个多小时的交流中，受益匪浅。Enjoy!

对了！今年年初，Onboard 就发布过一期关于具身智能的讨论，嘉宾包括了 Deepmind Robotics，高仙机器人和UCSD 的不同视角的重磅嘉宾。那一期讨论也非常精彩，建议大家回去复习哈！

嘉宾介绍

苏昊 (Twitter @HaoSuLabUCSD)，UC San Diego Associate Professor，Hillbot智能机器人初创公司创始人、CTO。Stanford PhD, UCSD 具身智能实验室主任，数据科学研究所创始成员，以及视觉计算中心和情境机器人研究所成员。他的研究工作集中在开发算法来模拟、理解并与物理世界互动。

OnBoard! 主持：Monica, 美元VC投资人，前 AWS 硅谷团队+ AI 创业公司打工人，公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻：莫妮卡同学

我们都聊了什么

03:04 苏昊的学术历程，为什么最近觉得有关证明的研究进展对机器人领域很有启发？

10:05 从智能演化的角度，理解“具身智能”这个“老概念”

15:01 为什么从语言而不是视觉上最先看到了接近人类的智能？

21:31 实现具身智能有哪些主流的路线？如何理解不同路径不同切入点背后的逻辑？

32:10 可以通过大模型的能力实现运动控制吗？有泛化性的控制数据要怎么采集？

38:26 演示学习 (learning from demonstration) 有哪些不同路径？ALOHA这类遥操作有什么利弊？

47:00 规划和执行需要一起做训练吗？做一个端到端的系统核心难点在哪里？

51:15 划重点：好的算法的本质就是降低对数据的需求

52:23 针对机器人的大模型会跟LLM架构有什么异同？

59:31 人形机器人可以解决数据和能力泛化的问题吗？

66:16 模拟器能解决训练数据的问题吗？近年来模拟器相关技术有什么关键进展？

78:31 AI生成3D，Sora 等新技术进展对实现 sim2real 路径有什么影响？

95:26 苏昊老师现在的创业项目 Hillbot

100:32 快问快答：推荐的书，影响最大的人，具身智能被高估和低估的话题，如何解压！

重点词汇和公司

Boston Dynamics
PI (Physical Intelligence)
OpenAI DALL-E 3
SAPIEN: A SimulAted Part-based Interactive ENvironment
ManiSkill: a powerful unified framework for robot simulation and training powered by SAPIEN.
Google Deepmind RT-1: Robotics Transformer for real-world control at scale
Google Deepmind RT-2: New model translates vision and language into action, Paper
Google Deepmind Open X-Embodiment: Robotic Learning Datasets and RT-X Models, Paper
ALOHA: A Low-cost Open-source Hardware System for Bimanual Teleoperation
Mobile ALOHA: a low-cost and whole-body teleoperation system for data collection.
Behavior Colony：行为克隆
Learning from Demonstration：示范学习
Meta AI Habitat: A Platform for Embodied AI Research
AI2: The Allen Institute for Artificial Intelligence
Segment Anything Model (SAM): a new AI model from Meta AI that can "cut out" any object, in any image, with a single click
robot-VILA: Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning
CoPa: General Robotic Manipulation through Spatial Constraints of Parts with Foundational Model
ImageNet: image database organized according to the WordNet hierarchy

参考文章

欢迎关注M小姐的微信公众号，了解更多中美软件、AI与创业投资的干货内容！

M小姐研习录 (ID: MissMStudy)

欢迎在评论区留下你的思考，与听友们互动。喜欢 OnBoard! 的话，也可以点击打赏，请我们喝一杯咖啡！如果你用 Apple Podcasts 收听，也请给我们一个五星好评，这对我们非常重要。

最后！快来加入Onboard！听友群，结识到高质量的听友们，我们还会组织线下主题聚会，开放实时旁听播客录制，嘉宾互动等新的尝试。添加任意一位小助手微信，onboard666, 或者 Nine_tunes,小助手会拉你进群。期待你来！

Comments

In Channel

EP 69. 对话硅谷AI应用增长顾问陈唱：深度解析HeyGen, Gamma, Otter.ai 百万用户增长实践

2025-07-0901:35:59

EP 68. 对话AppLovin技术VP葛小川：2年市值增长25倍，千亿美金广告平台的传奇成长史

2025-07-0301:35:04

EP 67. 解析DeepSeek R1技术创新与生态影响：强化学习，Long CoT，数据，Agent与开源生态

2025-03-0302:49:16

EP 66. 深度解读Coding Agent与OpenAI o3：中美Agent 创业者、研究员与投资人眼里的未来

2024-12-3002:47:13

EP 65. 对话 Daloopa CTO Jeremy Huang:融资4千万美金，如何打造红遍华尔街的AI金融产品

2024-12-2702:04:14

EP 64. 对话 Comfy 核心中国力量：多模态生成全球狂奔之年，开源与商业化发生了什么

2024-12-2502:06:05

EP 63. 直播回放：什么是开发大模型应用的新一代底层技术栈？对谈贾扬清，PingCAP黄东旭和AWS核心AI产品研发

2024-12-1601:52:52

EP 62. Google Deepmind 与LLM研究员深度解读OpenAI o1 及LLM+强化学习新范式

2024-10-1102:42:51

EP 61. 深度访谈Castbox王小雨：50+款出海产品，5千万月活,播客App如何完成AI转型

2024-09-1901:40:03

EP 60. 全英文对话CRV投资人与LanceDB创始人：向量数据库下半场，大模型和多模态需要怎样的数据基建？

2024-09-1301:54:15

EP 59. 对话硅谷连续创业者梁胜：20年3家公司总并购金额10亿美金，征战GenAI的走心创业思考

2024-09-0601:32:14

EP 58. 你所不知道的AI产品，哪些正在“闷声赚大钱”？| OnBoard! X 十字路口

2024-07-1156:02

EP 57.【听友会实录2】创始人出海实战分享，如何在全球打造百万用户的产品

2024-07-0501:04:28

EP 55. 对话UCSD副教授苏昊：从学术到创业，深度解读具身智能的实现路径

2024-06-1301:47:39

EP 54. 深度对谈顶尖AI开源项目：大模型开源生态, Agent 与中国力量

2024-06-0703:19:06

EP 53. AI Agent会取代程序员吗？硬核对话硅谷顶尖研究员与AI独角兽：软件开发的未来，Agent的技术本质

2024-05-1502:46:45

EP 52. 一线亲历者对谈：生成式AI这一年，中美市场的异同、机会与未来

2024-05-0902:06:18

EP 51. [EN]全英文对话Inworld Al、微软Xbox: AI NPC会成主角吗？AI原生游戏什么时候到来？

2024-03-2801:20:06

EP 50. 中美头部AI应用实战分享：Typeface、Monica如何从0到1，机会、挑战和长期壁垒（下）

2024-03-2101:13:58

EP 49. 中美头部AI应用实战分享：Typeface、Monica如何从0到1，机会、挑战和长期壁垒（上）

2024-03-1901:51:17

00:00

1.0x

EP 55. 对话UCSD副教授苏昊：从学术到创业，深度解读具身智能的实现路径

#box-pro-ellipsis-176545189453487{-webkit-line-clamp:2;}EP 55. 对话UCSD副教授苏昊：从学术到创业，深度解读具身智能的实现路径

EP 55. 对话UCSD副教授苏昊：从学术到创业，深度解读具身智能的实现路径

EP 55. 对话UCSD副教授苏昊：从学术到创业，深度解读具身智能的实现路径