我是这样用 RL + LLM 做 Agent 的｜对谈 Pokee AI 创始人朱哲清 Bill

Update: 2025-01-18

Description

新年正式第一期，来点新东西。

大家都说 Agent 热，那 Agent 到底是啥、到底为啥热、到底咋做、到底长啥样？

大家都说 RL 是新方向，那 RL 到底是啥，和 LLM 的关系是什么，又能怎么和 Agent 结合？

这期我们就请到了在 Meta 工作了七年的应用强化学习组负责人朱哲清 Bill，讲一讲他是怎么用一种很新的技术路线来做一种很新的 Agent，并且在电商等领域是如何落地的。

最后，我们的 AI 私董会也在持续报名中，目前已经聚集了一批市场上最好的 AI 创始人，欢迎点击链接报名（里面也有目前已加入的成员名单，可点击查看）

【人类博物馆】

导游：曲凯，42章经创始人

30 号珍藏：朱哲清 Bill，Pokee AI 创始人兼 CEO，此前 7 年在 Meta AI 做应用强化学习组负责人，并攻读了斯坦福大学强化学习专业博士学位

【时光机】

Part1 强化学习

3:06 我们思考方式已经全面 RL 化 —— from OpenAI 研究员
4:36 Transformer 和 RL 到底是什么关系？又要如何结合？
10:15 RL 解答的是平行宇宙问题
12:35 RL+LLM，就是公认最好的技术路线吗？
14:02 RL 的算法原理类似于「多巴胺刺激」
14:42 在无法清晰定义 Reward 的场景下，RL 还好用吗？
15:12 RL 最强的三个能力

Part2 给 Agent 用上强化学习

18:42 为什么直接用 LLM 做不出规划型 Agent？
20:17 一个有效的 Agent 架构：RL 做核心，LLM 做翻译
23:35 我们做出了一个电商领域的通用型 Agent
- 24:39 体验相当于一个资深的网站负责人
- 26:05 原理是让 Agent 通过 self-play 学会使用上千个底层 API
29:43 Agent 当前市场格局:
- 29:52 Coding Agent 是皇冠上的明珠
- 30:26 Vertical Agent 遍地开花，但准确性仍是大难题
- 30:46 通用型 Agent 尚不存在，但 RL 或可迎战
31:17 万物皆可 call API
34:07 一个具体的应用示例：Agent 是怎么帮商家省钱提效的？
39:08 训练成本和推理成本都低得令人发指...
40:33 先定一个小目标：做各行各业的 API 杀手
42:57 对 25 年硅谷 AI 市场的观察和预判
- 43:11 垂类 Agent 是绝对的热点赛道，融资并不困难
- 45:29 25 年是 Agent 真正落地的一年

【The gang that made this happen】

制作人：陈皮、Celia
剪辑：陈皮
Bgm：Mondo Bongo - Joe Strummer & The Mescalero

Comments

In Channel

「你觉得 AI 有泡沫吗？」——有！｜对谈莫傑麟

2025-11-2248:02

2018 - 2020，抖音超越快手的关键三年｜对谈 Lessie AI 创始人于北川

2025-11-0801:24:49

OpusClip 增长秘诀：如果每个阶段只让我选一件事做 | 对谈 Opus 前增长产品负责人君陶

2025-10-2552:35

一个原教旨主义产品经理眼中的世界 | 对谈理想 SVP 范皓宇

2025-10-1101:22:21

组织能力才是 AI 公司真正的壁垒 | 对谈 Palona AI 联创任川

2025-09-2044:28

Mercor 高速增长的秘诀与其中的聪明人｜对谈 Mercor 首位中国员工虞快

2025-09-0650:13

硅谷 AI 大转弯与二级市场的牛市｜对谈莫傑麟

2025-08-2301:21:07

关于 AI Infra 的一切 | 对谈阶跃星辰联创朱亦博

2025-08-0258:08

并购的本质 | 对谈云磬投资创始人立阳

2025-07-1952:54

人生就是一场大 Sales，如何做一个更好的 BD？ | 对谈某科技家办戴安琪

2025-06-2833:18

从 E2B 到 Browserbase，Agent Infra 新热点中有哪些大机会？ | 对谈 Grasp 创始人雷磊

2025-06-1454:35

世界加速分化下，我们的机会在哪里？ | 对谈绿洲资本合伙人张津剑

2025-06-0255:22

关于 AI、开源、商业化与全球化的经验、教训和方法论 | 对谈 PingCAP CTO 东旭

2025-05-1753:56

AI 下半场：聊透 Benchmark 与 Evaluation | 对谈前 Kimi 产品经理丁丁

2025-05-0541:12

Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent｜对谈 Sheet0 创始人王文锋

2025-04-1952:38

一堂「强化学习」大师课｜对谈清华叉院助理教授吴翼

2025-04-0501:12:49

世界怎么就「东升西落」了？聊聊二级市场与 DeepSeek+Manus 的热潮｜对谈莫傑麟

2025-03-2256:18

信念感与硅谷顶尖孵化器的奇遇：赴美三月，实现千万刀 ARR｜对谈 ACE Studio 创始人 Joe

2025-03-0148:32

第一个出 ICU 的 AI 创业者｜对谈心影随形 CEO Binson

2025-02-1501:03:10

我是这样用 RL + LLM 做 Agent 的｜对谈 Pokee AI 创始人朱哲清 Bill

2025-01-1845:57

00:00

我是这样用 RL + LLM 做 Agent 的｜对谈 Pokee AI 创始人朱哲清 Bill

#box-pro-ellipsis-17646246235323{-webkit-line-clamp:2;}我是这样用 RL + LLM 做 Agent 的｜对谈 Pokee AI 创始人朱哲清 Bill

我是这样用 RL + LLM 做 Agent 的｜对谈 Pokee AI 创始人朱哲清 Bill

我是这样用 RL + LLM 做 Agent 的｜对谈 Pokee AI 创始人朱哲清 Bill