Listen Top Shows Blog

76. 王小川返场谈o1与强化学习：摸到了一条从快思考走向慢思考的路

76. 王小川返场谈o1与强化学习：摸到了一条从快思考走向慢思考的路

Update: 2024-09-25

1

Share

Description

<figure>

</figure>

在过去两集节目中，关于OpenAI o1和AGI范式转移，我们先是推出了一集预言，之后推出了一集解析。在一个新范式来临的临界点上，我们希望听到更多来自业界不同视角的声音。哪怕这些声音是切片的、冲突的，我们都希望当做一种记忆和留存收集起来。

今天这期是王小川的返场。

王小川在创业开始就关注到强化学习并且很早开始公开谈论。他曾说，大模型代表快思考，它叫“学”；强化学习是慢思考，它叫“思”。“学”和“思”两个系统最终会走向融合。除了o1，王小川也聊了聊强化学习在一个特定场景——医疗——中的应用。

<figure>

</figure><figure>

</figure>

我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）

<figure>

</figure>

01:30 大模型是“学而不思则罔”，强化学习是“思而不学则殆”
03:45 Sam Altman被宫斗下课与强化学习大神Noam Brown的动态
05:45 OpenAI o1是范式升级，摸到了一条从快思考走向慢思考的道路
（DIKW模型：Data – Information – Knowledge – Wisdom）
08:18 怎么看o1隐藏思维过程，有人破解o1思维链会被警告要封号？
09:04 从以语言为核心走向思维链，分两阶段运行增加泛化性
11:38 强化学习 vs 监督学习
16:39 除了数学和代码以外，医疗是可以用强化学习提升的领域
19:55 之前做强化学习实验没有CoT（思维链），今天更强调CoT了
22:16 复现o1 vs 复现GPT-4
26:30 未来几年将从强化学习范式走向写代码解决问题新范式
28:35 做“水涨船高的应用”，不只是“沿途下蛋的应用”
31:35 创业公司要走出大厂射程，在射程内你是没什么好活的

【更多信息】

联络我们：微博@张小珺-Benita，小红书@张小珺jùn

更多信息欢迎关注公众号：张小珺

<figure>

</figure>

Comments

Top Podcasts

The Best New Comedy Podcast Right Now – June 2024 The Best News Podcast Right Now – June 2024 The Best New Business Podcast Right Now – June 2024 The Best New Sports Podcast Right Now – June 2024 The Best New True Crime Podcast Right Now – June 2024 The Best New Joe Rogan Experience Podcast Right Now – June 20 The Best New Dan Bongino Show Podcast Right Now – June 20 The Best New Mark Levin Podcast – June 2024

In Channel

81. 和李开复聊聊：如果美国形成AGI霸权，我们应该怎么办？

81. 和李开复聊聊：如果美国形成AGI霸权，我们应该怎么办？

2024-11-1001:39:07

80. 和知乎周源聊，社会化编辑部、孤独的悖论、AI与宿命

80. 和知乎周源聊，社会化编辑部、孤独的悖论、AI与宿命

2024-10-3101:20:48

79. 特斯拉股价跌了，Uber却涨了？漫谈特斯拉Robotaxi大会

79. 特斯拉股价跌了，Uber却涨了？漫谈特斯拉Robotaxi大会

2024-10-1358:50

78. 从蒸汽机到无人驾驶5｜谈谈自动驾驶创投过山车这8年

78. 从蒸汽机到无人驾驶5｜谈谈自动驾驶创投过山车这8年

2024-10-0801:14:53

77. 并购重组会兴起吗？和陆复斌聊他隐蔽做全球并购这5年

77. 并购重组会兴起吗？和陆复斌聊他隐蔽做全球并购这5年

2024-10-0501:34:15

76. 王小川返场谈o1与强化学习：摸到了一条从快思考走向慢思考的路

76. 王小川返场谈o1与强化学习：摸到了一条从快思考走向慢思考的路

2024-09-2539:05

75. 和OpenAI前研究员吴翼解读o1：吹响了开挖第二座金矿的号角

75. 和OpenAI前研究员吴翼解读o1：吹响了开挖第二座金矿的号角

2024-09-1801:14:10

74. 从蒸汽机到无人驾驶4｜Waymo和它的对手们：我暗中考察了四个月

74. 从蒸汽机到无人驾驶4｜Waymo和它的对手们：我暗中考察了四个月

2024-09-1101:13:43

73. AGI范式大转移：和广密预言草莓、OpenAI o1和self-play RL｜全球大模型季报4

73. AGI范式大转移：和广密预言草莓、OpenAI o1和self-play RL｜全球大模型季报4

2024-09-0501:27:01

72. 从蒸汽机到无人驾驶3｜和孟醒聊特斯拉FSD进化史

72. 从蒸汽机到无人驾驶3｜和孟醒聊特斯拉FSD进化史

2024-09-0201:31:03

71. 和楼天城聊聊Robotaxi和ACRush：“L2做得越厉害，离L4越远”

71. 和楼天城聊聊Robotaxi和ACRush：“L2做得越厉害，离L4越远”

2024-08-1601:00:19

70. 和何小鹏聊，FSD、“在血海游泳”、乱世中的英雄与狗熊

70. 和何小鹏聊，FSD、“在血海游泳”、乱世中的英雄与狗熊

2024-07-1601:27:28

69. 口述全球大模型这半年：Perplexity突然火爆和尚未爆发的AI应用生态

69. 口述全球大模型这半年：Perplexity突然火爆和尚未爆发的AI应用生态

2024-06-2301:06:43

68. 和MiniMax天使投资人聊，MiniMax幕后故事和大模型资本扑克牌

68. 和MiniMax天使投资人聊，MiniMax幕后故事和大模型资本扑克牌

2024-06-1001:02:44

67. 谈谈黄仁勋搭建的组织系统：分布式操作系统，“就像一台GPU”

67. 谈谈黄仁勋搭建的组织系统：分布式操作系统，“就像一台GPU”

2024-05-3101:14:56

66. 和李志飞聊IPO、GPT-4o和你不知道的前沿科技创业的痛

66. 和李志飞聊IPO、GPT-4o和你不知道的前沿科技创业的痛

2024-05-2301:29:19

65. 风险投资的钥匙失灵了吗？和梦秋聊：蛰伏、更少人的游戏和啮齿动物

65. 风险投资的钥匙失灵了吗？和梦秋聊：蛰伏、更少人的游戏和啮齿动物

2024-04-2201:16:59

64. 和广密聊AGI大基建时代：电+芯片=产出智能

64. 和广密聊AGI大基建时代：电+芯片=产出智能

2024-04-1701:21:56

63. 商业口述史：中资到海外买买买的大时代，以430亿美元并购先正达为最高潮

63. 商业口述史：中资到海外买买买的大时代，以430亿美元并购先正达为最高潮

2024-04-0701:43:49

62. 你们要的朱啸虎，来了

62. 你们要的朱啸虎，来了

2024-04-0152:14

00:00

00:00

x

76. 王小川返场谈o1与强化学习：摸到了一条从快思考走向慢思考的路

76. 王小川返场谈o1与强化学习：摸到了一条从快思考走向慢思考的路