EP13专访Yilun Du:基于EBM和视频生成的具身智能研究路线
Description
本期访谈的嘉宾Du Yilun。他是第一个将Diffusion Model应用于机器人动作生成的学者(Planning with Diffusion),也是第一个提出通过视频预测来做机器人轨迹预测的学者(UniPi)。
和Du Yilun博士的交流让我自己受益匪浅,对于和我一样,最近一直在思考VLA是否可以真的把通用机器人做work的人,请你一定要听听这期播客,看看这期文字整理。
Du Yilun目前是哈佛大学 Kempner Institute 及计算机科学系的助理教授,同时也是 Google DeepMind 的高级研究科学家。他于MIT电气工程与计算机科学系获得博士学位,导师是 Leslie Kaelbling 教授、Tomas Lozano-Perez 教授以及 Joshua B. Tenenbaum 教授。此前,他也在 MIT 获得本科学位,并曾在 OpenAI 担任研究员,在 FAIR和Google DeepMind 担任实习生与访问研究员,并曾获得国际生物奥林匹克金牌。
他的研究聚焦于生成模型、决策制定、机器人学习、具身智能体,以及这些工具在科学领域中的应用。他的研究目标是发展能在物理世界中自主行动的智能具身体。主要致力于利用生成式 AI 建立世界模型,从而将系统化的规划与迭代式推理引入到学习型智能体中。在这一背景下,生成式 AI 面临的关键挑战包括缺乏充足的建模数据,以及模型在未见过情境中的泛化能力。他通过构建可组合的生成模型来应对这一挑战,具体方法是使用能量地形学习(Energy-Based Models, EBMs)这一思想,以实现超越有限数据范围的泛化能力。他的早期 EBM 研究也促成了 2020 年扩散模型的发展。 以下为本文目录
01:00 自我介绍
02:15 什么是能量图谱?
03:30 学习可组合的能量图谱来构建可泛化系统
07:00 进一步解释能量模型
09:10 Diffusion Model和能量图谱模型的关系
10:20 Diffusion Model和机器人的结合
12:20 为什么会坚持EBM这个方向?
13:30 为什么特别关注可组合性和泛化能力
16:10 怎么理解可组合性?组合的是什么?
20:20 这条路线的受关注度怎么样?
22:10 看好具身哪个方向?
23:00 目前基于视频的方法有哪些?关于智能的理解
26:00 比较重要的研究工作基于可组合能量图谱的具身智能路线
28:00 你对“智能”的理解?
29:30 语言和图像的智能实现了吗?
30:30 通用机器人这个AGI的终局远吗?关于具身路线的探讨
32:00 目前具身的路线哪些可以落地?
35:00 怎么看端到端VLA?
39:00 为什么不看好RL?
43:00 你认为目前通用机器人最大的问题是什么?
46:00 为什么具身当下的研究没有新意?
48:00 怎么对比语言和从物理载体中获得的智能?
53:00 具身方向未来会有突破的环节关于通用机器人研究方向的探讨
56:00 对于新进入这个领域的同学的建议
References:
Du Yilun个人主页:yilundu.github.io