EP 66. 深度解读Coding Agent与OpenAI o3:中美Agent 创业者、研究员与投资人眼里的未来
Description
终于来到了OnBoard! 2024 年压轴之作!那必须是绝对深度绝对精彩的一期!
年底关于 AI 的新闻太多,但是最值得我们压轴深入探讨的,必须是 coding agent ——即使已经有很多讨论,或许也都还是被低估。
不到两个月的时间,coding agent 产品完成了二连跳式的升级,从IDE 助手 Cursor 到 Replit Agent, Windsurf 为代表的 coding agent,到Devin 的惊艳发布,让我们意识到真正 end-to-end coding agent 的能力已经超过 coding 本身,打开了大模型未来全新的想象空间。
Hello World, who is OnBoard!?
更巧的是,就在我们录制这一期节目的凌晨,就是 OpenAI 12天发布会最后一天,OpenAI o3 横空出世,在编程和数学领域最有挑战的 Benchmark 上超越了绝大部分的人类,也让我们对大语言模型能力天花板的预期再次被刷新。
要展望2025年AI领域还会发生什么,coding agent 以及强化学习为新范式的 o3系列,无疑是最核心的问题。这一期的嘉宾,汇集了国内和硅谷 coding agent 一线创业者、coding 大模型研究员和 AI 投资人,这次长达三个多小时的讨论,在全网恐怕都很少见了,有一线 coding agent 设计解读,还有最新鲜热乎的对 o3 实现难点和未来挑战的拆解,你是不是还不知道,在好几个开源项目里,OpenHands 已经超越人类成为最活跃贡献者了?
我们还探讨了:
- 为什么说 Devin 展示了“完成工作”的 scaling law?
- 最早引领 coding agent 潮流的 Replit Agent,以及开源 Devin 项目 - Openhands, 是设计中有哪些关键决策?
- Coding agent 未来是 Devin 形态赢家通吃吗?
- 底层模型能力之外,coding agent 应用公司的核心能力和壁垒是什么?
- Coding Agent 对于工程师和未来的组织和社会,会有哪些深远影响?
- 如何看待 o3 超越大部分人类的能力?未来的发展空间在哪里?
理解这次内容需要一些背景知识,非常强烈推荐大家去复习Onboard! EP 62. 与Google deepmind 研究员对o1的讨论,以及EP 53 对coding agent 的第一次探讨,其中一位嘉宾姚顺雨,作为 SWE bench 的提出人,已经加入OpenAI 负责 agent方向的研究。
未来已来,不论你是否已经感知到,这3个小时,绝对值得你的时间。
感谢大家这一年以来的支持,如果喜欢我们的内容,今年最后有机会在小宇宙里面打赏,在Apple podcast, spotify 里面给五星好评啦!
我们明年见!Enjoy!
<figure></figure>嘉宾介绍
- Yusen Dai,真格基金管理合伙人,聚美优品联合创始人。
- Zhen Li, Replit Agent 核心成员,Replit 资深工程师,ex-字节,Google.
- Xingyao Wang, Allhands AI (开源项目 OpenHands) co-founder & Chief AI Officer, UIUC PhD.
- Binyuan Hui, 阿里巴巴通义实验室科学家
- Cohost: Peak, 真格基金EIR,前猛犸浏览器创始人
- OnBoard! 主持:Monica:美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学
我们都聊了什么
04:06 嘉宾自我介绍,最近用 coding agent 实现的有意思的任务
15:17 投资人视角下,Coding agent 发展历程中的核心节点,为什么说 scale of work 是最令人兴奋的机会
22:03 Replit Agent 诞生的历程,发展过程中的关键节点,从1-10 有什么计划
36:04 如何看待与Devin 的竞争?未来不同 coding agent 产品形态会融合吗?
39:01 OpenHands/All hands AI 不同寻常的诞生故事,打造开源 coding agent 的重要技术和商业决策?
41:48 Openhands 的架构设计,与Devin 的异同意味着什么?
49:24 Coding agent 与 Anthropic Computer Use 之间的关系?
54:35 OpenHands 产品发布以来,社区的主要反馈和重要变化?开源有什么作用?
1:04:40 Coding agent 产品的长期竞争力是什么?
1:09:20 o3 最让人印象深刻的是什么?对 coding 和AGI 未来有什么影响?
1:20:08 解决真实世界的复杂问题,o3 之后还需要什么?
1:24:33 SWE bench 被“刷爆”之后,下一个有意义的 benchmark 是什么?
1:36:27 Coding agent 领域今年还出现了哪些重要变化?
1:41:33 未来需要怎样的工程师和怎样的组织?
1:58:07 如何进一步提高模型 planning 的能力?完成多步骤任务能力如何实现?
2:07:45 Agent 的普及会带来哪些底层技术栈和工具的新机会?
2:17:25 投资人如何看待 AI agent 的价值和投资机会?未来中国 coding agent 的机会是怎样的?
2:25:55 快问快答:未来1年和3年对AI的期望,coding agent 翻车的例子,AI被高估和低估的能力
我们提到的公司和重点词汇
- Cursor
- Cognition labs/Devin
- Replit
- Replit Agent
- OpenHands, github.com; OpenHands 论文: arxiv.org
- VisualWebArena: arxiv.org
- TheAgentCompany: 官网 the-agent-company.com,paper arxiv.org
- OpenAI o3
- OpenAI o1
- Anthropic
- Computer use by Anthropic
- SWE bench
- Windsurf
- Bolt.new
参考文章
- 刚体验了一小时 Devin,这是我第一次见到真正意义上的 A - 即刻App
- Devin和Agent Cursor使用体验对比
- www.latent.space
- Our Problems | Cursor - The AI Code Editor
- More Problems | Cursor - The AI Code Editor
- www.cognition.ai
欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!
M小姐研习录 (ID: MissMStudy)
欢迎在评论区留下你的思考,与听友们互动。喜欢 OnBoard! 的话,也可以点击打赏,请我们喝一杯咖啡!如果你用 Apple Podcasts 收听,也请给我们一个五星好评,这对我们非常重要。
最后!快来加入Onboard!听友群,结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。添加任意一位小助手微信,onboard666, 或者 Nine_tunes,小助手会拉你进群。期待你来!