EP 62. Google Deepmind 与LLM研究员深度解读OpenAI o1 及LLM+强化学习新范式

Update: 2024-10-11

Description

你们期待已久的最硬核干货的OpenAI o1模型技术解读来了！上个月最值得关注的事件，或许就是9月12号OpenAI o1模型的发布了，大家对这个新的模型翘首以待许久，OpenAI CEO Sam Altman 也称之为新范式的开始。经过强化学习（Reinforcement Learning）并结合Chain of thoughts 思维链技术，o1在处理物理、数学、编程等复杂问题时，甚至和该领域的博士生水平不相上下。OnBoard! 的嘉宾，不会让你失望！

Hello World, who is OnBoard!?

强化学习如何给大语言模型带来新的逻辑推理能力这？这种能力的来源、实现方式和未来潜力又是怎样的？o1带来的“新范式”会对行业有怎样的影响？

这次的嘉宾都是有实际训练LLM经验的一线研究员。这场三个多小时的解读，相信会给你不一样的视角！其中两位就来自 RL 绝对高地的 Google, 也是AlphaGo, alphafold, alphageometry 等一系列世界领先的RL工作的发源地。他们都分别在RL和MCTS（蒙特卡洛树搜索）领域有长期的研究和实践经验。另一位嘉宾则是在互联网大厂从LLM预训练到RLHF都有一手经验。中美视角的综合，碰撞出很多火花。这个嘉宾阵容对o1的猜想和解读，相信会让你直呼过瘾。

这次的探讨会涉及很多技术细节，嘉宾长期的海外工作学习，难免穿插英文，不接受抱怨。Enjoy!

PS 本期录制时间是2024年9月27日

</figure>

嘉宾介绍

Kimi Kong，Research engineer @Google deepmind, 他在 Stanford 读书期间就接触强化学习，从机器人到现在的大语言模型，对强化学习的理论和使用的沿革有非常系统的理解。

Eric Li （返场嘉宾！），Research scientist @Google Cloud, PhD @Caltech。大家都猜测 o1 将蒙特卡洛树搜索 (MCTS) 应用到了LLM，是提升逻辑推理能力的重要方式之一。Eric 就发表了多篇LLM和MCTS结合的论文，绝对的专家。

苏辉，前微信AI研究员，现国内一线互联网公司大模型负责人。

Cohost: Cage，原字节的数据科学家，现拾像科技研究员，公众号“海外独角兽”撰稿人

OnBoard! 主持：Monica：美元VC投资人，前 AWS 硅谷团队+ AI 创业公司打工人，公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻：莫妮卡同学

我们都聊了什么

02:36 嘉宾自我介绍，MCTS 科普，为什么对LLM+RL新范式很重要； Cursor 为何值得关注，Physics in LLM from Allen Zhu, 语言对推理能力的价值

20:25 对o1发布有什么印象深刻的地方，数据的重要性和难点

40:16 如何拆解o1能力提升的来源？如何重新训练一个o1?

56:10 为什么复杂的o1 却解决不好简单的数学或常识问题？

60:16 o1 用于 tool use 的任务，可能有什么挑战？对agent 产品有什么影响？

66:46 如何看待agent 数据集难收集的问题？

68:38 什么是 Chain of Thoughts (CoT)和MCTS? 对o1的作用跟以前CoT做法有什么不一样？MCTS 在LLM推理中可能有什么作用？

83:07 什么是强化学习（RL）？在LLM中应用RL是怎样的演进过程？

89:35 RL和self play 其他领域，比如机器人，有怎样的应用？跟在LLM的应用有何异同？

93:45 RL, CoT, self-play 之间是怎样的关系？真的可以无上限提升LLM推理能力吗？

106:56 o1 有可能是单一模型还是 multi-agent system?

119:11 LLM和游戏有什么相互影响？为什么玩游戏的能力对LLM 很值得关注？游戏数据对LLM训练有什么价值？

126:54 Google 很早就开始 RL 相关研究，为什么 OpenAI o1先出来了？

133:16 o1 新范式的出现，对于追赶者来说意味着什么？更容易还是更难？

141:43 要追赶 OpenAI o1, 最容易被低估和高估的是什么？

143:48 对未来的展望：未来1年和3年，预期AI领域会发生什么？

我们推荐的内容

OpenAI: Scaling Laws for Reward Model Overoptimization
Cursor
Allen Zhu: Physics of Language Models
Language is primarily a tool for communication rather than thought
OpenAI: Improving mathematical reasoning with process supervision
InstructGPT
OpenAI PRM 800k 数据集
Let's Verify Step by Step
Anthropic: Constitutional AI: Harmlessness from AI Feedback
RLAIF
OpenAI Hyung Won Chung: "Don't teach. Incentivize."
Toolformer
Chain of thoughts
DDPM
DPO
PPO
Sergey Levine: Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actorT Haarn
AlphaGo
AlphaGo-Zero
AlphaZero
MADDPG (Multi-Agent Deep Deterministic Policy Gradient (MADDPG), from OpenAI paper "Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments"
AlphaZero-Like Tree-Search can Guide Large Language Model Decoding and Training
Reasoning with Language Model is Planning with World Model
Chain of Thought Empowers Transformers to Solve Inherently Serial Problems

参考文章

欢迎关注M小姐的微信公众号，了解更多中美软件、AI与创业投资的干货内容！

M小姐研习录 (ID: MissMStudy)

欢迎在评论区留下你的思考，与听友们互动。喜欢 OnBoard! 的话，也可以点击打赏，请我们喝一杯咖啡！如果你用 Apple Podcasts 收听，也请给我们一个五星好评，这对我们非常重要。

最后！快来加入Onboard！听友群，结识到高质量的听友们，我们还会组织线下主题聚会，开放实时旁听播客录制，嘉宾互动等新的尝试。添加任意一位小助手微信，onboard666, 或者 Nine_tunes,小助手会拉你进群。期待你来！

Comments

In Channel

EP 69. 对话硅谷AI应用增长顾问陈唱：深度解析HeyGen, Gamma, Otter.ai 百万用户增长实践

2025-07-0901:35:59

EP 68. 对话AppLovin技术VP葛小川：2年市值增长25倍，千亿美金广告平台的传奇成长史

2025-07-0301:35:04

EP 67. 解析DeepSeek R1技术创新与生态影响：强化学习，Long CoT，数据，Agent与开源生态

2025-03-0302:49:16

EP 66. 深度解读Coding Agent与OpenAI o3：中美Agent 创业者、研究员与投资人眼里的未来

2024-12-3002:47:13

EP 65. 对话 Daloopa CTO Jeremy Huang:融资4千万美金，如何打造红遍华尔街的AI金融产品

2024-12-2702:04:14

EP 64. 对话 Comfy 核心中国力量：多模态生成全球狂奔之年，开源与商业化发生了什么

2024-12-2502:06:05

EP 63. 直播回放：什么是开发大模型应用的新一代底层技术栈？对谈贾扬清，PingCAP黄东旭和AWS核心AI产品研发

2024-12-1601:52:52

EP 62. Google Deepmind 与LLM研究员深度解读OpenAI o1 及LLM+强化学习新范式

2024-10-1102:42:51

EP 61. 深度访谈Castbox王小雨：50+款出海产品，5千万月活,播客App如何完成AI转型

2024-09-1901:40:03

EP 60. 全英文对话CRV投资人与LanceDB创始人：向量数据库下半场，大模型和多模态需要怎样的数据基建？

2024-09-1301:54:15

EP 59. 对话硅谷连续创业者梁胜：20年3家公司总并购金额10亿美金，征战GenAI的走心创业思考

2024-09-0601:32:14

EP 58. 你所不知道的AI产品，哪些正在“闷声赚大钱”？| OnBoard! X 十字路口

2024-07-1156:02

EP 57.【听友会实录2】创始人出海实战分享，如何在全球打造百万用户的产品

2024-07-0501:04:28

EP 55. 对话UCSD副教授苏昊：从学术到创业，深度解读具身智能的实现路径

2024-06-1301:47:39

EP 54. 深度对谈顶尖AI开源项目：大模型开源生态, Agent 与中国力量

2024-06-0703:19:06

EP 53. AI Agent会取代程序员吗？硬核对话硅谷顶尖研究员与AI独角兽：软件开发的未来，Agent的技术本质

2024-05-1502:46:45

EP 52. 一线亲历者对谈：生成式AI这一年，中美市场的异同、机会与未来

2024-05-0902:06:18

EP 51. [EN]全英文对话Inworld Al、微软Xbox: AI NPC会成主角吗？AI原生游戏什么时候到来？

2024-03-2801:20:06

EP 50. 中美头部AI应用实战分享：Typeface、Monica如何从0到1，机会、挑战和长期壁垒（下）

2024-03-2101:13:58

EP 49. 中美头部AI应用实战分享：Typeface、Monica如何从0到1，机会、挑战和长期壁垒（上）

2024-03-1901:51:17

00:00

EP 62. Google Deepmind 与LLM研究员深度解读OpenAI o1 及LLM+强化学习新范式

#box-pro-ellipsis-176538312381968{-webkit-line-clamp:2;}EP 62. Google Deepmind 与LLM研究员深度解读OpenAI o1 及LLM+强化学习新范式

EP 62. Google Deepmind 与LLM研究员深度解读OpenAI o1 及LLM+强化学习新范式

EP 62. Google Deepmind 与LLM研究员深度解读OpenAI o1 及LLM+强化学习新范式