76. 王小川返场谈o1与强化学习：摸到了一条从快思考走向慢思考的路

Update: 2024-09-25

Description

</figure>

在过去两集节目中，关于OpenAI o1和AGI范式转移，我们先是推出了一集预言，之后推出了一集解析。在一个新范式来临的临界点上，我们希望听到更多来自业界不同视角的声音。哪怕这些声音是切片的、冲突的，我们都希望当做一种记忆和留存收集起来。

今天这期是王小川的返场。

王小川在创业开始就关注到强化学习并且很早开始公开谈论。他曾说，大模型代表快思考，它叫“学”；强化学习是慢思考，它叫“思”。“学”和“思”两个系统最终会走向融合。除了o1，王小川也聊了聊强化学习在一个特定场景——医疗——中的应用。

</figure><figure>

</figure>

我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）

</figure>

01:30 大模型是“学而不思则罔”，强化学习是“思而不学则殆”
03:45 Sam Altman被宫斗下课与强化学习大神Noam Brown的动态
05:45 OpenAI o1是范式升级，摸到了一条从快思考走向慢思考的道路
（DIKW模型：Data – Information – Knowledge – Wisdom）
08:18 怎么看o1隐藏思维过程，有人破解o1思维链会被警告要封号？
09:04 从以语言为核心走向思维链，分两阶段运行增加泛化性
11:38 强化学习 vs 监督学习
16:39 除了数学和代码以外，医疗是可以用强化学习提升的领域
19:55 之前做强化学习实验没有CoT（思维链），今天更强调CoT了
22:16 复现o1 vs 复现GPT-4
26:30 未来几年将从强化学习范式走向写代码解决问题新范式
28:35 做“水涨船高的应用”，不只是“沿途下蛋的应用”
31:35 创业公司要走出大厂射程，在射程内你是没什么好活的

【更多信息】

联络我们：微博@张小珺-Benita，小红书@张小珺jùn

更多信息欢迎关注公众号：张小珺

</figure>

Comments

In Channel

102. 和张祥雨聊，多模态研究的挣扎史和未来两年的2个“GPT-4时刻”

2025-06-0202:28:43

101. 对YouWare创始人明超平3小时访谈：今天的Agent像大猩猩刚拿起一根烧火棍

2025-05-2802:42:44

100. 对话奔驰全球CEO康林松：转型期CEO和转型之中的139岁奔驰

2025-05-2357:57

99. 对能量奇点创始人杨钊3小时访谈：人类驯服可控核聚变还有多少路程？

2025-04-2802:34:35

98. 逐篇讲解机器人基座模型和VLA经典论文——“人就是最智能的VLA”

2025-04-0602:29:41

97. 25年Q1大模型季报：和广密聊当下最大非共识、AGI的主线与主峰

2025-03-3002:01:10

96. 和郎咸朋聊，自动驾驶10年演进史、关键技术细节和特斯拉

2025-03-1602:00:19

95. 对Manus创始人肖弘的3小时访谈：世界不是线性外推，做博弈中的重要变量

2025-03-0203:22:46

94. 逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学”

2025-02-2302:36:12

93. 离开字节、MiniMax的张前川，发出AGI对人类威胁的预警

2025-02-2002:07:21

92. 和张亚勤院士聊，意识、寿命、机器人、生物智能和物种的延伸

2025-02-1753:07

91. 逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏”

2025-02-1103:20:52

90. 朱啸虎又来了：中国现实主义AIGC故事的1周年连载

2025-02-0701:03:08

89. 逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净”

2025-02-0402:49:35

88. 和吴翼技术解读OpenAI Operator：推理从抽象世界走向物理世界的开端

2025-01-2401:12:02

87. 对李想的3小时访谈（播客版）：宅男、AI、家庭、游戏和天梯

2025-01-0202:53:37

86. 大模型季报年终特辑：和广密预言LLM产品超越Google之路

2024-12-2201:32:14

85. 与总统竞选成员聊，总统候选人与美国叙事如何PMF？

2024-12-1552:10

84. 融了近4亿的AI创业者在干嘛？岂凡超的第一次访谈

2024-12-1001:44:23

83. 黄仁勋和3万亿美元英伟达是如何炼成的？

2024-12-0401:44:22

00:00

1.0x

76. 王小川返场谈o1与强化学习：摸到了一条从快思考走向慢思考的路

We and our partners use cookies to personalize your experience, to show you ads based on your interests, and for measurement and analytics purposes. By using our website and our services, you agree to our use of cookies as described in our Cookie Policy.

#box-pro-ellipsis-174893586423394{-webkit-line-clamp:2;}76. 王小川返场谈o1与强化学习：摸到了一条从快思考走向慢思考的路

76. 王小川返场谈o1与强化学习：摸到了一条从快思考走向慢思考的路

76. 王小川返场谈o1与强化学习：摸到了一条从快思考走向慢思考的路