73. AGI范式大转移：和广密预言草莓、OpenAI o1和self-play RL｜全球大模型季报4

Update: 2024-09-05

Description

</figure>

今天这集是我和广密【全球大模型季报】第4集。这期2024年Q3季报，提前和大家见面。

我们正进入的9月会是AGI的一个大月，OpenAI造势已久且绝密的项目“草莓（Strawberry）”将在不久后揭开它神秘的面纱。此外，Anthropic也会推出Claude 3.5 Opus，这两个模型将是AGI进程是否顺利的关键风向标。

这些项目很可能暗示了硅谷AGI范式已经静悄悄地发生剧烈转移。

本集节目带来了对AGI发展路径的最大猜想——硅谷AGI范式正在发生转移，self-play RL（强化学习）开启了新赛道。大部分人还没意识到，在纯靠语言模型预训练的Scaling Law这个经典物理规律遇到瓶颈后，多家硅谷明星公司已经把它们的资源重心押宝在一条新路径上：self-play RL（自博弈强化学习）。只不过，这个范式转移还未形成共识。Self-play RL到底是什么？它如何有别于传统路径？它能成为继续Scaling Law的一把神奇钥匙吗？

这集节目是关于self-play RL的一篇高质量科普，也希望为大模型从业者带来方向性的启发。

除了self-play RL，我们着重探讨了硅谷一级市场的明星赛道（Coding、视频生成、通用机器人），以及OpenAI与科技巨头近况。希望我们【全球大模型季报】能帮大家了解最前沿的AGI动态，并且能持续给大家带来启示。

本集是《张小珺Jùn｜商业访谈录》和《海外独角兽》的串台节目。

我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）

</figure><figure>

</figure>

坏的推演猜测，GPT-5不乐观；好的推演猜测，RL开启新赛道

02:30 语言模型预训练的范式或许遇瓶颈，模型scaling边际效益开始递减
05:21 为什么不一定能支持模型在GPT-4o基础上大幅跃升？现在处于“真空死亡地带”？
06:43 我最担心的是，纯靠语言模型的经典Scaling Law /Pre train这个物理规律遇到瓶颈，或者在更大参数比如2-3T以上的情况下开始失效了
09:37 如果scaling law在模型变大的过程中不work，现在有三条潜在路径：1、多模态尤其是视觉（但还没有证据说能从视觉模态训练涌现智能能力）；
2、10万卡集群（但10万卡集群充分互联的难度比预期难，可能是全人类最难的项目之一）；
3、强化学习self-play RL（这是范式级别的大转变！）
12:53 如果我是AI公司CEO，我会200%资源all in RL这条路
13:40 概念解释：Reinforcement Learning，简称RL，中文强化学习（Ilya用一句话概括强化学习：让AI用随机路径去尝试一个新任务，如果效果超出预期，就更新神经网络的权重让AI记得多使用成功的实践，再开始下一次尝试）
19:05 代码和数学可以变得很强，能不能泛化到更多领域没有证据
22:39 你也可以把语言和预训练比作人类基因组，携带着人类几千年进化的基因，强化学习RL就是人类成长的一生
24:55 必须很聪明的模型才能有能力做self-play RL的探索
27:07 Anthropic Claude 3.5是这一波标志性的产品，他们不搞Sora/搜索，主线是RL；业内少数人意识到RL的重要性是最近两个月
28:35 硅谷明星公司现阶段的资源投入？1-2家公司把RL当作最高优先级
28:56 2024年9月OpenAI和Anthropic即将要发布的，什么值得期待？
29:42 AGI范式大转移之下，还会有GPT-6和GPT-7吗？（可能明年会看到很小的模型比今天GPT-4o要聪明非常多，一个期待是实现AGI不一定需要巨量参数的模型）
30:33 新范式的困境和卡点
32:52 Character.AI出售给Google预示AGI竞赛上半场结束，下半场开始，创始人Noam从Google进入self-play RL下半场
34:36 新范式下，还需要那么多GPU吗？很多人关心英伟达股价
37:06 AGI范式转移只在最核心的researcher中有共识，几百人，还没扩散
38:55 Claude 3.5 Sonnet显著提升，带动了编程工具Cursor的火爆出圈
40:08 OpenAI在造势的草莓、Q*，猜测背后都是强化学习RL
41:55 国内公司应该应该all in 200%跟进RL
42:44 语言模型和RL是乘级关系

硅谷AI一级市场的四个明星赛道

45:12 硅谷的AI赛道：围绕LLM周边有3-4个圈，搜索、代码Coding、视频、机器人

</figure>

1、Coding：在硅谷出现了4-5家独角兽（Devin、Augment 、Magic、Poolside，都已经20-30亿美元估值），最近编程工具Cursor出圈
2、视频：这个赛道诱人，但格局不稳定、决胜窗口长
3、通用机器人：想赌具身领域也有个OpenAI，现在是基础科学突破的问题，没看到在机器人领域的“通用泛化能力”出现
57:00 美国通用机器人的明星项目（Pi、The Bot是业界公认最头部的项目，除此之外融资金额很大、声量也比较高的是Skild AI、Figure AI）
58:31 国内vs硅谷机器人：硅谷投robot foundation model一个大脑，像Andorid；在国内投整机，OV和小米
01:01:56 LLM->多模态->具身智能->世界模型，这是AI发展路径
01:05:54 LLM vs 移动互联网，叙事逻辑是什么？哪些明线与暗线？