73. AGI范式大转移:和广密预言草莓、OpenAI o1和self-play RL|全球大模型季报4
Description
今天这集是我和广密【全球大模型季报】第4集。这期2024年Q3季报,提前和大家见面。
我们正进入的9月会是AGI的一个大月,OpenAI造势已久且绝密的项目“草莓(Strawberry)”将在不久后揭开它神秘的面纱。此外,Anthropic也会推出Claude 3.5 Opus,这两个模型将是AGI进程是否顺利的关键风向标。
这些项目很可能暗示了硅谷AGI范式已经静悄悄地发生剧烈转移。
本集节目带来了对AGI发展路径的最大猜想——硅谷AGI范式正在发生转移,self-play RL(强化学习)开启了新赛道。大部分人还没意识到,在纯靠语言模型预训练的Scaling Law这个经典物理规律遇到瓶颈后,多家硅谷明星公司已经把它们的资源重心押宝在一条新路径上:self-play RL(自博弈强化学习)。只不过,这个范式转移还未形成共识。Self-play RL到底是什么?它如何有别于传统路径?它能成为继续Scaling Law的一把神奇钥匙吗?
这集节目是关于self-play RL的一篇高质量科普,也希望为大模型从业者带来方向性的启发。
除了self-play RL,我们着重探讨了硅谷一级市场的明星赛道(Coding、视频生成、通用机器人),以及OpenAI与科技巨头近况。希望我们【全球大模型季报】能帮大家了解最前沿的AGI动态,并且能持续给大家带来启示。
本集是《张小珺Jùn|商业访谈录》和《海外独角兽》的串台节目。
我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)<figure></figure><figure></figure><figure></figure>
坏的推演猜测,GPT-5不乐观;好的推演猜测,RL开启新赛道
- 02:30 语言模型预训练的范式或许遇瓶颈,模型scaling边际效益开始递减
- 05:21 为什么不一定能支持模型在GPT-4o基础上大幅跃升?现在处于“真空死亡地带”?
- 06:43 我最担心的是,纯靠语言模型的经典Scaling Law /Pre train这个物理规律遇到瓶颈,或者在更大参数比如2-3T以上的情况下开始失效了
- 09:37 如果scaling law在模型变大的过程中不work,现在有三条潜在路径:1、多模态尤其是视觉(但还没有证据说能从视觉模态训练涌现智能能力);
- 2、10万卡集群(但10万卡集群充分互联的难度比预期难,可能是全人类最难的项目之一);
- 3、强化学习self-play RL(这是范式级别的大转变!)
- 12:53 如果我是AI公司CEO,我会200%资源all in RL这条路
- 13:40 概念解释:Reinforcement Learning,简称RL,中文强化学习(Ilya用一句话概括强化学习:让AI用随机路径去尝试一个新任务,如果效果超出预期,就更新神经网络的权重让AI记得多使用成功的实践,再开始下一次尝试)
- 19:05 代码和数学可以变得很强,能不能泛化到更多领域没有证据
- 22:39 你也可以把语言和预训练比作人类基因组,携带着人类几千年进化的基因,强化学习RL就是人类成长的一生
- 24:55 必须很聪明的模型才能有能力做self-play RL的探索
- 27:07 Anthropic Claude 3.5是这一波标志性的产品,他们不搞Sora/搜索,主线是RL;业内少数人意识到RL的重要性是最近两个月
- 28:35 硅谷明星公司现阶段的资源投入?1-2家公司把RL当作最高优先级
- 28:56 2024年9月OpenAI和Anthropic即将要发布的,什么值得期待?
- 29:42 AGI范式大转移之下,还会有GPT-6和GPT-7吗?(可能明年会看到很小的模型比今天GPT-4o要聪明非常多,一个期待是实现AGI不一定需要巨量参数的模型)
- 30:33 新范式的困境和卡点
- 32:52 Character.AI出售给Google预示AGI竞赛上半场结束,下半场开始,创始人Noam从Google进入self-play RL下半场
- 34:36 新范式下,还需要那么多GPU吗?很多人关心英伟达股价
- 37:06 AGI范式转移只在最核心的researcher中有共识,几百人,还没扩散
- 38:55 Claude 3.5 Sonnet显著提升,带动了编程工具Cursor的火爆出圈
- 40:08 OpenAI在造势的草莓、Q*,猜测背后都是强化学习RL
- 41:55 国内公司应该应该all in 200%跟进RL
- 42:44 语言模型和RL是乘级关系
硅谷AI一级市场的四个明星赛道
- 45:12 硅谷的AI赛道:围绕LLM周边有3-4个圈,搜索、代码Coding、视频、机器人
- 1、Coding:在硅谷出现了4-5家独角兽(Devin、Augment 、Magic、Poolside,都已经20-30亿美元估值),最近编程工具Cursor出圈
- 2、 视频:这个赛道诱人,但格局不稳定、决胜窗口长
- 3、通用机器人:想赌具身领域也有个OpenAI,现在是基础科学突破的问题,没看到在机器人领域的“通用泛化能力”出现
- 57:00 美国通用机器人的明星项目(Pi、The Bot是业界公认最头部的项目,除此之外融资金额很大、声量也比较高的是Skild AI、Figure AI)
- 58:31 国内vs硅谷机器人:硅谷投robot foundation model一个大脑,像Andorid;在国内投整机,OV和小米
- 01:01:56 LLM->多模态->具身智能->世界模型,这是AI发展路径
- 01:05:54 LLM vs 移动互联网,叙事逻辑是什么?哪些明线与暗线?
OpenAI和科技巨头
- 01:12:37 OpenAI
- 1、有点浪费技术领先的红利,产品没接住
- 2、联合创始人Greg Brockman、John Schumann离职
- 3、Ilya离开应该是bet on两个路线(多模态/强化学习,大概率是RL)
- 01:17:10 Q*和草莓和RL应该是一件事,草莓是代号,RL是方法
- 01:18:07 回答红杉美国合伙人 David Cahn发布最新文章《AI’s $600B Question》
- 01:20:00 在2024年Q3,AI叙事还有哪些非共识?
- 01:22:45 Character.AI之后,哪些AI公司还会被收购?做个预测
- 01:23:38 2000年互联网hype破灭后只留下Amazon一家公司,今天AI hype如果破灭了,谁是下一个Amazon?
- 01:24:24 AGI第一幕是科技巨头受益,第二幕还没完全展开
【全球大模型季报】系列
2023年:口述全球大模型这一年:人类千亿科学豪赌与参差的中美景观
2024年Q1:和广密聊AGI大基建时代:电+芯片=产出智能
2024年Q2:口述全球大模型这半年:Perplexity突然火爆和尚未爆发的AI应用生态
【更多信息】
联络我们:微博@张小珺-Benita,小红书@张小珺jùn
更多信息欢迎关注公众号:张小珺
<figure></figure>