Discover张小珺Jùn|商业访谈录
张小珺Jùn|商业访谈录
Claim Ownership

张小珺Jùn|商业访谈录

Author: 张小珺

Subscribed: 474Played: 3,186
Share

Description

努力做中国最优质的科技、商业访谈。

张小珺:财经作者,写作中国商业深度报道,范围包括AI、科技巨头、风险投资和知名人物,也是播客《张小珺Jùn | 商业访谈录》制作人。

如果我的访谈能陪你走一段孤独的未知的路,也许有一天可以离目的地更近一点,我就很温暖:)
122 Episodes
Reverse
今天这集节目,我们将讨论一个在当下非常关键的话题:人工智能的算法与架构创新。嘉宾是我们的往期嘉宾返场,她是MIT在读博士杨松琳,研究方向是线性注意力机制。我们将从最新发布的几个模型Kimi Linear、Minimax M2、Qwen3-Next切入。松琳参与讨论Kimi Linear和Qwen3-Next的部分工作,是Kimi Linear论文的作者之一。算法创新为什么在2025年变得尤为重要?它的背后原因是,数据、算力和算法是驱动人工智能的三驾火车,在数据撞墙的无奈前提下,各个模型公司不得不重新开始“雕模型架构”,以期Scaling Law的魔法继续。而由于中国的算力相对美国有限,这反而让中国的AI算法创新走在了世界前沿。这集节目你将听到,近几年架构最大突破是DeepSeek的MoE(混合专家模型),它让MoE成为了全球共识;而下一个突破的重要方向可能就是Attention(注意力机制)。中国公司在Attention展开了不同技术bet(押注):截至目前已发布模型,DeepSeek正在探索Sparse Attention(稀疏注意力机制);Kimi正在探索Linear Attention(线性注意力机制);Minimax在年初的M1版本中探索Linear Attention,而在刚发布的M2版本中又回退到 Full Attention(全局注意力机制)。节目中,松琳将讲解她参与的这篇《Kimi Linear: An Expressive, Efficient Attention Architecture》的工作,并分析以上这些公司在Attention上的不同抉择;与此同时,她也将带领大家考古人工智能算法变种史,并预演未来算法与架构的改进方案。本集比较硬核,会有一些专业难度,大家可以根据自己的实际需要收听嗷:)因为嘉宾的工作环境会出现中英夹杂,希望大家多多理解和支持。04:00 个人、研究主线与线性注意力机制的探索之路06:27 松琳做过一个开源库:flash-linear-attention(简称FLA)07:04 怎么通俗理解Linear Attention的Linear?11:19 聊聊最近参与的新工作,前几天刚发布的《Kimi Linear: An Expressive, Efficient Attention Architecture》(Kimi Linear:一种具有强表达能力与高效率的注意力架构)(FLA库的另一个作者Zhang, Yu邀请)12:20 为什么Kimi在年初开始需要重新设计注意力机制?设计的背景和目标在Linear Attention下,推理阶段的计算与显存成本都显著降低;而使用Full Attention时,长文本解码的代价会非常高昂14:39 《Kimi Linear》论文重点讲解:KDA模块(Kimi Delta Attention,增量注意力机制)18:56 Kimi内部有一个Scaling Ladder(规模阶梯),在一个规模下面表现好就在下一个规模下面去scale,就像通关20:20 Kimi Linear Attention vs DeepSeek Sparse Attention:Kimi走线性注意力路线,DeepSeek走稀疏注意力路线,都想解决长文本decoding(长上下文生成)的效率问题23:01 Minimax从M1到M2的架构变化,从Linear Attention退回到Full Attention,为什么?27:00 硅谷的注意力机制方案不方便说,但可以浅聊一下OpenAI有paper的方案28:05 Linear Attention从2020年发明出来开始后的前进线索每一次大家关心Linear Attention都是因为大家撞到了Context Wall最近长文本的decoding卷土重来,让人们不由自主审视这一套技术38:16 纯Linear Attention是无效的,混合注意力机制还是有很多全局注意力层,这样下限有保证40:30 Kimi Linear每3层KDA插入1层全注意力层,三比一的比例快变成共识了Minimax之前用的是七比一,但现在大家逐渐回到三比一——这成为不共识的混合注意力机制中的共识了42:32 权衡(Trade-off)表达能力(expressivity)与计算效率(efficiency)Minimax曾经也提到,混合线性注意力/混合滑窗注意力在“多跳推理”上会有缺陷对于“多跳推理”,如果我们开发一些硬件高效但表达能力更好的RNN(循环神经网络),这个GAP有可能缩小46:28 chunkwise algorithm for parallelization(分块并行算法)47:55 如何设计Attention?两条主流和一些非主流路线49:36 结合Linear Attention和Sparse Attention的未来理想方案Linear Attention和Sparse Attention没什么竞争关系,Linear Attention的竞争对手可能是Sliding-Window Attention(滑窗注意力)工业界Linear Attention和Sparse Attention结合的探索似乎还没开始我想象中的理想方案是:把混合注意力的全局注意力(Full Attention)换成稀疏注意力(Sparse Attention)只要Sparse Attention选得准,完全可以取代Full Attention,但现在的问题是它选不准55:36 公平的比较:Linear Attention vs Sliding-Window Attention(滑窗注意力)57:05 Transformer → MoE → Linear/Sparse Attention的算法演变,背后动因是给定你相同的FLOPs(浮点运算量),利用这些FLOPs,取得更低的损失函数MoE(混合专家)是更高效的FNN(前馈神经网络)的替代品58:26 近几年架构方面突破最大的是MoE,下一个突破可能是Attention;Transformer就两个模块,一个是FFN,一个是Attention;现在FFN已经雕成MoE,现在Attention大家也可以雕一下01:01:28 数据、算法、算力是驱动人工智能的三驾马车,当数据遇到数据强,算法创新变得更重要01:02:48 架构的未来:1、能不能干掉全局注意力?它是阻止context window继续scale up的主要瓶颈2、Continue Learning,让AI自己学习01:04:30 如何把Linear Attention的Transformer继续scale up?01:07:43 中国AI的算法创新相比海外肯定是更强的——因为没有那么多卡(不过美国公司更多投入优化器一点,国内在逐步重视01:10:56 其他训练细节:NoPE vs. RoPE01:12:09 DeepSeek-OCR01:12:55 松琳也参与了Qwen3-Next,没有参与Minimax M201:13:39 “雕”架构的人01:15:16 自己的心路:“当你很清楚你要做什么的时候,你是不会遇到什么挫折的”经验分享:PhD还挺顺利的,得益于我入学之前的半年考古01:23:12 说到考古,我们在最后聊聊从Transformer开始的算法变种历史01:29:50 Delta Rule算法、硬件亲和、DeepSeek非常追求硬件和算法的匹配01:42:23 给更年轻的年轻人的建议嘉宾往期节目:《逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学”》谈到的论文:《Kimi Linear: An Expressive, Efficient Attention Architecture》《MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention》《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》
2025年4月,我与理想创始人兼CEO李想录制AI Talk第二季。那次对谈持续了很长时间,播出版仅1小时,今天你看到的是完整版。这一集节目的发布比预期晚了些。过去几个月实在太忙了,我一度犹豫要不要继续放出。但当我重新整理这些内容时,仍然被它打动——这是一份关于人工智能技术变革的“节点式思考存档”。你可以结合2024年底我们那场3小时谈话一起观看,感受两次对话之间,思考的延展与呼应。这次,我把李想当作一个“CEO大模型”来提问。假设他是一种MoE(Mixture of Experts,专家混合)架构的模型,我在对话的前三个回合调用了他的三位“专家”:技术专家、战略专家、组织专家。而当谈话深入到后半程,我们开始讨论人、能量、亲密关系、记忆程序与人类的智慧。“AI与人的关系”,是本次对话的母题。(录制于2025年4月)02:35 第一章:假若你是一个CEO大模型人类做熵减,AI做熵增工具的三个分级:“信息工具”、“辅助工具”、“生产工具”“生产工具”重要的衡量是:你愿意为它付钱梁文锋极简运用了人类最佳实践按照最佳实践是反人性的,随心所欲才满足人性我只能做最好的自己,我一直在自己的长板延长线上理想为什么还做基座大模型?当时我们比较担心陈伟团队(基座模型自研团队)怎么想?这个压力挺大的36:18 第二章:调用MoE之技术专家李想手把手教你训VLA达到VLA不是突变的过程,是进化的过程,经历了三个阶段我给你讲一下VLA是怎么训的,以及VLA自己怎么去工作的我不会做超长CoT,我的CoT链条一般两步到三步至少5年内不会有通用Agent,但会有一个Agent OS要顺着人性去说,逆着人性去做如果大家不想做前面包子的积累,只想吃第10个包子,很像练《葵花宝典》黑盒、世界模型和定价逻辑每1万公里的验证成本,我们做到从最开始18万降到4000块钱01:25:36 第三章:调用MoE之战略专家2025年雁栖湖战略会如果看战略,中间的圈是规模,圈外边有三个变量:用户需求、技术产品、组织能力具备这四个特点的,就是AGI时代的终端:360度对物理世界感知的能力、认知决策的能力、Action的能力、反思反馈能力到了AGI时代的终端,对于能力的要求变得不一样了如果看到2030年,我们希望能够成为全球领先的人工智能终端企业这是我们未来的3-6年要去解的题李想的理想会不会太过于理想?构建3-7人能量体高维组织兼容低维组织02:09:26 第四章:智慧是我们和万物的关系我的记忆程序创业不容易,但是没必要苦哈哈的大女儿我们家里实现了一个“三人支撑”,这让家里的能量大幅地提升人是用来发挥的,人不是用来改变的不要构建那么多亲密关系,亲密关系太多了就证明这个人不会经营关系把智慧当成一个重要的人类特质去发展对李想的第一次3小时访谈:《对李想的3小时访谈(播客版):宅男、AI、家庭、游戏和天梯》本集节目同步上线文字版和视频版:文章:公众号(语言即世界language is world)视频:Bilibili(张小珺商业访谈录)
今天的嘉宾是谢青池,他是美团光年之外的产品负责人。一个月前,青池找到我,说他用了一年多的时间一篇一篇地啃完了200多篇AI论文,从开始全然不得要领,到后来逐渐地入门——而他希望将他的论文探索之旅开源给大家。就这样,我们有了今天这集特别的节目。他从200多篇论文中精选了36篇经典,4小时讲解,带你穿越AI变迁史。他说,读论文是“给你打开一扇门”,让你能直接“与这个世界最聪明的头脑对话”。2025年,期待我们和AI共同进步!01:30 探索的缘起07:25 怎么读论文?(用AI学AI)10:20 辅助小工具和路书论文讲解的主干:19:35 Part 1:模型的范式变迁故事要从1999年的第一颗GPU开始讲起Brook: 用GPU进行计算 (2004.08)AlexNet: 深度学习的开端(2012.10)对序列建模:seq2seq和Attention的引入(2014.09)蒸馏:模型能被学习吗?(2015.03)ResNet: 比深更深(2015.12)Transformer来了!拉开一个时代的序幕(2017.06)AlphaGo Zero: 强化学习的突破(2017.10)现代MoE的开端(2017.01)CoT: Prompt Engineering的奠基之作(2022.01)LoRA: 那个我们每天都在用的东西(2021.06)ReAct: Agent从理论到落地(2022.10)The Bitter Lesson: 过去70年的教训(2018.08)01:52:58 Part 2:Infra与数据的变迁ZeRO: 大规模的GPU并行计算(2019.10)Scaling Law & Chinchilla: 上帝的指挥棒(2020.01 2022.03)LAION-5B: 开源社区的英雄主义(2022.10)The RefinedWeb: 互联网的数据也很够用(2023.06)MegaScale: 万卡GPU集群的训练(2024.02)02:21:29 Part 3:语言模型的发展Word2Vec: 用机器学习将单词向量化(2013.01)Google Translate: 神经网络的大规模线上部署(2016.09)GPT-1,它来了(2018.06)BERT: 曾经的王(2018.10)GPT-2: 是时候告别微调了(2019.02)GPT-3: ChatGPT来临前夜(2020.05)InstructGPT: 给LLM以文明(2022.03)Tulu 3: 后训练的开源(2024.11)03:08:08 Part 4:多模态模型的发展DeepVideo: 深度学习进入视频领域,Andrej 初出茅庐(2014.06)双流网络: Karén和学术重镇牛津登场(2014.06)图像生成的序章: GAN来了(2014.06)Diffusion: 在GAN的阴影下,悄然成长(2015.03)DDPM: Diffusion重回图像舞台的中央(2020.06)ViT: 当图像遇到Transformer(2020.10)CLIP: 文生图的奠基石(2021.03)Stable Diffusion,它来了(2021.12)DiT: 人们期待一个融合的未来(2022.12)03:56:38 最后的聊天架构抱住了硬件的大腿今天技术的边界到达了哪?给“站在AI世界门外张望的人”和“已经在体系中工作多年的人”的建议【技术之美】系列:逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净”逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏”逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学”逐篇讲解机器人基座模型和VLA经典论文——“人就是最智能的VLA”逐段讲解Kimi K2报告并对照ChatGPT Agent、Qwen3-Coder等:“系统工程的力量”【更多信息】本集的投屏视频版已经同步发布于Bilibili(张小珺商业访谈录):https://www.bilibili.com/video/BV1pkyqBxEdB/?spm_id_from=333.1365.list.card_archive.click&vd_source=aa7c66a3d015be4b5bfcd520784f279050页完整PPT开源地址(所有论文链接附在PPT上):https://w7py8ou4dk.feishu.cn/wiki/KacewdlmSiSGC9kUOKDch9gwnKf?from=from_copylink
今天的嘉宾吴明辉是明略科技的创始人、CEO兼CTO,明略科技于2025年8月29日获境外发行上市备案通知书,不久后将于香港上市。这是一次上市前的访谈,吴明辉口述一家To B公司漫长的19年故事,其间经历了好多次的分分合合、沉浮与急转。你能在这里面找到许多我们节目嘉宾的身影——肖弘、李广密、杨植麟。我们也聊了聊面向全新的AI时代,企业服务级AI与Agentic Model的前景。但这个故事的最开始,要从他与峰瑞资本创始合伙人李丰的公司合并聊起。2025年,我们和AI共同进步!02:11 Part 1:第一段创业开始的快问快答和我们嘉宾广密、Red的渊源创业的开始:祝伟投资吴明辉和李丰合并后的公司最开始罗永浩、李笑来是我们的股东第一版商业计划书就是推荐系统,为什么没做今日头条?奥林匹克竞技训练的心理调适秒针系统的成功眼睁睁看着今日头条的流量哗啦啦起来56:08 Part 2:第二段创业“老板上完商学院,团队遭殃”同时创立明略科技、云迹机器人学习美国一家数据分析公司Palantir,但从To G转向To B收购Red的决策,我希望他做我的CEO successor2020-2021年:战场开得太宽、走过的弯路2022年:痛苦的急转,人生最suffer的一年有AI以后,预计企业级服务会出现并购潮01:45:01 Part 3:企业服务级AI基于公开数据训基础模型、以卖Token为商业模式的公司会很卷,卷成电费有私有Data的公司能产生差异化价值现实世界的数值游戏新产品“DeepMiner”的由来Agent或Tool Use在企业服务领域产生了新的链接Agent是一种交互技术,对To C和To B互联网都会产生革命性变化那些不提供供给侧能力、只提供链接网络,而这个网络又不是根结点的公司,会很危险将来企业只有两类人?老板和合伙人(合伙人不是公司员工)一个幸福的老板,个人使命、家庭使命和公司使命高度相关
今天的嘉宾,我们很开心邀请了OpenAI研究员姚顺雨。2025年4月,姚顺雨发布了一篇有名的博文《The Second Half》,宣告AI主线程的游戏已进入下半场。这之后,我们与他进行了一场播客对谈。姚顺雨毕业于清华和普林斯顿大学,开始智能体的研究非常早。在博士期间他意识到语言可能是人类发明的最接近本质的工具,于是转向语言智能体研究,至今已6年。他有许多有代表性的工作。我们的谈话从个体出发,共同探索由人、组织、AI、人与机器的交互,所抵达的这个世界智能的边界以及人类与机器的全景。前不久,我刚刚创立了一家新的内容工作室「语言即世界工作室」,顺雨很意外地从另一个角度帮我回答了,我们工作室创立的初心。为什么我们相信语言是这个世界的本质奥秘?他的表达是:“语言是人为了实现泛化而发明出来的工具,这一点比其他东西更本质。”(本次访谈发生在2025年5月,访谈为个人观点,与所供职公司无关。)02:58 第一部分:人 感觉我前28年的人生,非常的乖 我一直有这个非共识:我想要去做Agent 第一年最大收获是,要用GPT,不要用BERT;第二个learning是任务或环境非常重要 我的研究有两个核心:一是怎么去做一些有价值、和现实世界更相关的任务和环境;二是怎么去做一些简单、但又通用的方法17:50 第二部分:系统 Agent是一个非常古老的概念,任何能进行自我决策、与环境交互,并试图优化奖励的系统,都可以被称为Agent Agent演变的三波兴衰:大家可能更多注意到方法线,容易忽视任务线,但这两条线是相辅相成的 Agent发展最关键的两个方向:一个是让它拥有自己的reward(奖励),能自己探索;另一个是Multi-Agent(多智能体),让它们之间能形成组织结构 Code有点像人的手,它是AI最重要的affordance(环境给予行动者的可能性) 任务的设定 泛化的工具 奖励的机制48:38 第三部分:吞噬的边界 创业公司最大机会是:能设计不同的interface(交互方式) 可能模型的能力会产生beyond ChatGPT(超越 ChatGPT)的交互方式,变成Super App 拥有一个Super App对于公司是双刃剑,当你有像ChatGPT这样的Super App,很自然你的研究就会围绕这个Super App Assistant、Her,或者像人一样的交互方式,显然是最重要的交互方式之一;不显然的是,我能不能基于不像人的交互方式? 这世界是个相互抄的关系,而不是一个单向抄的关系 OpenAI可能会成为一个类似Google的公司,成为新世界里非常重要的一环,但这并不代表,这个世界就会被这样一个单极系统垄断 最终的智能边界,是由不同的交互方式决定的,而不是由一个single model(单一模型)决定 前年冬天,我读到冯诺依曼临终前写的一本书:The Computer and the Brain 环境永远是记忆层级中最外层的部分,这很哲学 模型公司的Chatbot系统会演化成一个很自然的Agent系统01:05:01 第四部分:人类的全局 人与系统:Agent要不要像人?“是一个效用问题” OpenAI是一个bottom-up(自下而上)的公司 如果你没有一个different bet(不同的下注方向),很难超越前面的霸主 我导师是GPT‑1第二作者,他在OpenAI待了一年,他对这件事是有点怀疑的 如果你成为了伯克希尔的CEO,未来要拿出500亿美金allocate(分配)到AGI行业,你会怎么allocate这笔钱? 真正的危险,不是一个类似微信的东西打败了微信,而是一个不一样的东西打败了微信 恰好这个时代,做上限更高的事更好【更多信息】文字版同步上线文字版请前往公众号:语言即世界language is world
今天的嘉宾是萨洛蒙中国区总经理殷一和小红书商业服饰潮流行业负责人欧迪。我们一起来聊聊,这两年比较火的一个户外品牌,萨洛蒙。萨洛蒙和始祖鸟都属于亚玛芬集团,2019年亚玛芬被安踏收购;2021年以后,萨洛蒙这个70多岁的法国品牌,意外在中国开启了增长之路。这个最早从滑雪品类起步,逐步扩展到越野跑鞋的小众品牌,在中国的传统消费群体以男性以及专业滑雪、越野跑爱好者为主;但近几年,他们通过在小红书的一系列品牌行为,成功吸引女性消费群体和新户外人群,扩圈增长,而这又进一步反向刺激了男性消费者以及核心运动人群的增长。希望这些新鲜的品牌知识,也能给你带来新的启发:)02:00 两位嘉宾的自我介绍03:06 萨洛蒙1947年诞生于法国,雪是DNA里最深的那道烙印04:39 我们曾经被阿迪达斯收购,阿迪达斯帮我们做了sports style06:04 越野跑核心人群,十年前只有10万人,今年也是10万人,区别是什么?11:52 品牌应该从小众走向大众,还是从大众走向小众?16:22 2019年母公司亚玛芬被安踏收购后,萨洛蒙发生了什么?18:07 中国女性占比最高接近七成,现在是六成不到20:45 女性对男性的拉新高于男性对女性的拉新23:21 2021年以后,越来越多海外户外品牌主动地集中进入中国27:31 小红书帮萨洛蒙拓展人群:“尖货尝新档”和“色彩敏感控”34:55 以人为主体的品牌策略:找到“超级用户代表”43:26 10年前我们做品牌会更注重the winning moments,现在更注重成长的过程和细节45:37 萨门少女背后的消费者洞察:女性不再追求仪式感的堆叠,更追求内心的松弛48:36 结合小红书和安福路萨洛蒙门店,线上和线下循环流量55:24 萨洛蒙拉新女性消费者,又反哺了男性消费者的增长58:16 如果一个非常男性化的品牌想要女性化,应该怎么做?01:00:43 潮流化会不会削弱专业户外基因?01:01:33 年轻人消费新变化01:08:05 当做AI品牌也像做消费品品牌,从品牌角度给AI创始人一些建议分享一下漂亮的录制现场:
今天的嘉宾是月之暗面创始人兼CEO杨植麟,距离他上一次来我们的节目(《商业访谈录》59集)已经过去1年半。就在刚刚过去的7月,Kimi K2模型发布,引发了比较广泛的关注。K2是一个基于MoE架构的开源编程和Agentic大语言模型。形象来说,模型借助编程能力走出封闭的“缸中之脑”,长出了“手”,开始操控外部数字世界。今天这集节目我和杨植麟聊了聊K2的研发和他当下的技术认知、技术判断。以及,在过去一年的舆论风暴与创业起伏中,作为创始人,他的心情与思考。01:49 一座无限的山这有点像我最近在看的一本书:The Beginning of Infinity(无穷的开始)也许有一天会发现,这座雪山没有尽头,我希望它一直没有尽头但它还是一个“缸中之脑”:想象一个鱼缸,你把一个脑子放在里面,跟外界没有联系不管是基于长思考的强化学习,还是Agent的强化学习,都指向同一个东西:test-time scaling(测试时扩展)还有一个很有意思的趋势是,现在有更多模型公司去做“一方的Agent产品”L1到L5不一定是串行关系,Claude就bet这一点:它在Reasoning上做得不是特别多,但在Agent上做得非常好只有当模型参与到开发过程,才能解锁真正的Innovator(L4)阶段24:58 K2是乔戈里峰K2的重点有几个:一,我们希望它是一个非常好的基础模型我们希望能最大化使用每一份数据,就是所谓token efficiency——喂一样多的数据,“脑子”长得更多我们会对数据做很多Rephrase(改写)操作我们很关注Muon优化器,它对token efficiency提升很大二,我们希望K2有好的Agentic能力,对于Agentic模型来讲,最大挑战是模型的泛化它可能是一个从“缸中之脑”变成可以跟世界交互,因为所谓Agent最重要的特征是,可以多轮地使用工具人是所谓的universal constructor(万能构造器)有一种潜在思路,需要用更AI native(原生人工智能)的方式去训练AIMuon你去训的时候,它会炸54:08 既简单又复杂的系统为什么Kimi从闭源转向开源?模型训练完成,产品也基本完成了,做交互上的改进当然有价值,但那是锦上添花的一步多模态不损伤“脑子”已经很好了你可能学出来的多模态是个“傻的多模态”,我们希望它是个“聪明的多模态”Scaling Law遇到数据墙了,这是客观事实数据飞轮很依赖外部环境的feedback(反馈),我们不希望feedback有很多噪声,但现在没有把这个问题解决得非常好现在看起来,基于FLOPs的scaling是更有效路径,但这个平衡什么时候会发生变化?很多Long Context架构会影响“智商”纯粹的Linear Attention(线性注意力机制)可能影响智商,因为这个架构会有一些bias(偏差)基座模型公司和做Agent产品的应用公司,长期看边界在哪?今天怎么思考商业模式?API是好生意吗?Kimi能赚钱吗?01:25:05 在自己的故事里面Tim(周昕宇)天天跟我讲——要用RL的方式去管理,而不是用SFT用RL管理团队最大问题是,你容易被hack很多复杂性都是人为强行加上去的,实际并没有那么复杂只能说是在自己的这个故事里面——你不断地感受自己到底是什么样的一个人,你为什么要做这个事情这个问题我也问过Kimi,他说,AI是“人类文明的放大器”这也是Kimi跟我讲的——任何中间状态都有可能成为被批评的对象肯定有恐惧,更多要关注你当前这一步,能做什么?——想这个问题更重要2024年对杨植麟的访谈:《和杨植麟聊大模型创业这一年:人类理想的增量、有概率的非共识和Sora》【更多信息】文字和视频版同步上线文字版请前往公众号:语言即世界language is world视频版请前往Bilibili:张小珺商业访谈录
在大家的强烈催更下,新一集的《全球大模型季报》终于来了。这一集有两个关键词。第一个关键词是分化。硅谷各个模型公司在这个季度,开始分化到各个领域,除了Google Gemini和OpenAI还在做通用的模型;Anthropic分化到Coding、Agentic的模型能力;Mira的Thinking Machines分化到多模态和下一代交互。第二个关键词是产品。《大模型季报》过去一直把视角放在模型的智能探索上,而广密开始浓墨重彩地聊产品,这还是第一次。这里是《全球大模型季报》的第7集,如果大家喜欢我们的系列,希望大家多多给我们一些鼓励和支持。你们的夸奖对我们来说,非常的重要。2025,期待我们和AI共同进步!03:54 模型在分化通用各项能力的模型 - Gemini/OpenAIAll in Coding+Agentic 能力 - Anthropic多模态原生 - Thinking Machines LabGrok 今天还在摸索自己生态位置Meta 原创 0-1 的基因还是很弱最领先的这几家很像 F1 竞赛21:37 横向全家桶,纵向垂直整合C端是一个非常明显的头部收敛趋势,ChatGPT可能在C端会收敛掉很多产品作为投资人或 AI 创业者,一面兴奋是技术每个月都在进步,另一面有点绝望横向全家桶的例子是ChatGPT,已经包含了Chat+搜索+Coding+Agent+WorkSpace纵向垂直整合的例子是 Gemini,从 TPU 芯片,到 Gemini 模型,到上面 Agent 应用,再到 Google 文档/Chrome浏览器/安卓操作系统/YouTube视频,可以做超级集成33:35 智能和产品都重要过去 3 年一直是对智能上限的探索极度上头,但在过去两个月开始重视产品了ChatGPT 身上有很多非技术性壁垒,而 Coding 或模型公司只是技术壁垒OpenAI 是平衡最好的一家,一边探索智能上限,一边又把智能红利转化成产品流量和品牌心智38:52 做 AI 产品很像挖矿,保鲜窗口很关键挖矿:第一个做出来让用户惊叹的体验很重要,哪怕 token 消耗很大,只要你是第一个做出来让用户惊叹的 Magic moments,就等于你起码得到了 5 亿美金的营销费用,比如 Perplexity/Cursor/Manus但这个窗口期又特别有意思,窗口是逐渐在缩短的:从 2 年、1 年、3 个月产品公司能赢过模型公司做的产品吗?44:21 L4 级别的体验最优秀的俩 Agent 都有了 L4 体验:ChatGPT 的 Deep Research + Anthropic 的 Claude Code,分别对应信息搜索+软件开发今天最大红利还是 language/code 红利,尤其是 code,还不是多模态/世界模型/机器人Claude Code 最近大杀四方,Claude Code 是一个 L4 的体验接下来还有哪些领域能有 L4 级别体验?52:43 对Google看法的转变一个猜想是,ChatGPT 后面肯定会做广告平台,因为最近招了新的商业化 CEO但我在想 Google 还是全球最好的广告平台,最后大家产品形态上都会殊途同归,融合到一起的,就是全家桶逻辑,Search 也会演变55:53 其他话题AGI有泡沫吗?假如AGI有泡沫,什么事情会是导火索,戳破泡沫?人类和大猩猩的智能水平差异在哪?最近湾区有没有什么新的讨论比较高的话题?“犹太人的金融,华人的AGI”(免责声明:本节目不构成投资建议)【全球大模型季报】系列2023年:口述全球大模型这一年:人类千亿科学豪赌与参差的中美景观2024年Q1:和广密聊AGI大基建时代:电+芯片=产出智能2024年Q2:口述全球大模型这半年:Perplexity突然火爆和尚未爆发的AI应用生态2024年Q3:AGI范式大转移:和广密预言草莓、OpenAI o1和self-play RL2024年Q4:大模型季报年终特辑:和广密预言LLM产品超越Google之路2025年Q1:大模型季报:和广密聊当下最大非共识、AGI的主线与主峰
过去10年,中国新能源汽车产业从无到有,经历蓬勃发展。大家最熟悉的可能是理想、小鹏、蔚来这些整车品牌,但另一面这场变革背后的产业链企业也在变化。《商业访谈录》的108集对余凯和本集对禾赛联合创始人和CEO李一帆的3小时访谈,关注的都是汽车产业链上的隐形选手。这集也是李一帆对他们做激光雷达11年硬核科技创业的一部口述史。随着中国科技创新从互联网的模式创新,走向硬核科技的前沿创新,中国也许还会出现更多的技术型创业者。禾赛的故事也许能提供一个参考样本。(本次访谈录制于2025年4月)00:02:00 开始的快问快答00:02:33 股价过山车00:03:40 激光雷达99.5%的降本00:12:05 家庭和成长00:32:13 罕见的3人平分股份00:43:35 融资的伎俩00:49:02 第一笔2000万大单00:55:45 想说完蛋了…01:10:06 余凯比多我一个001:20:47 定价心思01:38:15 开始倒戈01:58:07 进入汽车大本营02:38:34 新钱和老钱03:02:16 最后的快问快答【从蒸汽机到无人驾驶】系列《对李想的3小时访谈(播客版):宅男、AI、家庭、游戏和天梯》《和何小鹏聊,FSD、“在血海游泳”、乱世中的英雄与狗熊》《对话奔驰全球CEO康林松:转型期CEO和转型之中的139岁奔驰》《余凯口述30年史:世界不止刀光剑影,是一部人来人往的江湖故事》《和楼天城聊聊Robotaxi和ACRush:“L2做得越厉害,离L4越远”》
我们又来读论文啦!!!今天我们要读的论文是最近几个星期内最值得品读的几篇技术报告,分别是:Kimi K2、ChatGPT Agent、Qwen3-Coder的技术报告,以及Manus的一篇技术博文。他们的相关性是,这几篇内容都和Agent有关系。今天的嘉宾是俄亥俄州立大学(The Ohio State University)的在读博士郑博元,他的研究方向是Language Agent,他会带我们一起读上述技术报告和博文。这是《商业访谈录》的“技术之美”系列,期待和你一起读论文,领略科技平权,感受技术之美——做你的赛博组会:)00:02:00 给Agent下定义和分类00:14:50 Kimi K2、ChatGPT Agent、Qwen3-Coder、Manus的技术路线对比00:28:29 Agent Training 的关键环节:合成数据、强化学习、安全00:30:57 第一篇技术报告:Kimi K2: Open Agentic Intelligencegithub.com00:43:50 第二篇技术报告和访谈:Introducing ChatGPT agent: bridging research and actionopenai.com红杉访谈OpenAI:OpenAI Just Released ChatGPT Agent, Its Most Powerful Agent Yetwww.sequoiacap.com01:53:38 第三篇技术报告:Qwen3-Coder: Agentic Coding in the Worldqwenlm.github.io01:59:04 第四篇技术博文:AI代理的上下文工程:构建Manus的经验教训(作者:Yichao 'Peak' Ji)manus.im02:06:06 展望:也许会有一个新的范式02:15:20 我感觉Agent是“我拓展的大脑”,我背后有一个“军团”(Family of Agents)02:16:41 不同Bot的语言风格:DeepSeek嘴臭,元宝舔狗智能体定义Agent是一种能够与环境进行交互(interaction)的智能系统。它具备两个基本能力:感知能力(Perception)能够观察环境的状态,包括获取外部信息、读取反馈信号、解析上下文等。行动能力(Action)能够在环境中执行动作,例如调用工具、生成输出、控制界面、修改变量等。简言之,Agent = 感知 + 行动在一个循环中不断执行“观察 → 决策 → 行动”的流程,以达成任务目标。Agent 的定义与分类1. Coding Agent(代码智能体)代表产品:Cursor、Windsurf特点:代码生成与编辑能力强,用户体验优秀应用场景:代码补全、代码重构、多人协作编程2. Search Agent(搜索型智能体)特点:结合搜索引擎,自动完成信息检索和汇总应用场景:市场调研、报告生成、竞争对手分析等潜力:在企业级场景中有很强的应用价值3. Tool-Use Agent(工具使用型智能体)特点:能够调用多种外部工具完成复杂任务应用重点:是目前 Agent 研究和落地的主要方向举例:ReAct(推理 + 行动)类 Agent,通过 tool calling 执行任务4. Computer Use Agent(电脑操作型智能体)代表产品:OpenAI Operator、Claude 的 Computer Use特点:模拟人类使用电脑,完成跨应用的复杂操作应用场景:执行流程自动化、远程助理、办公代理Agent 的技术路线对比1. In-Context Learning(上下文学习)特点:依赖强大的预训练模型,通过提示构造实现任务规划与执行优势:无需微调,灵活性高局限:泛化能力弱,rollout 长度有限,容易失控2. End-to-End Training(端到端训练)特点:将 Agent 的全部行为编码进模型权重优势:推理稳定,可控性强局限:训练成本高,环境构建复杂Agent Training 的关键环节1. Data Synthesis(数据合成)方法:生成大量高质量的 trajectory(行动轨迹)用途:训练 Agent 在任务中如何决策、调用工具、管理 memory(记忆)2. Reinforcement Learning(强化学习)条件:需要定义清晰的 task(任务)与 verifiable reward(可验证奖励)挑战:任务难度与环境反馈设计直接影响 Agent 的行为质量3. Safety(安全性)问题风险:Agent 具备自主决策能力,容易误用工具、走偏轨迹对策:加入 sandbox(沙盒)限制、行为约束机制、Human-in-the-loop(人类监控)展望:也许会有一个新的范式生成数据的核心会从 input-output 式的数据标注,转向构建 environment(环境)以及对应的 task-reward(任务-奖励)。比如 Scale AI 提出的 rubrics as reward(用评分标准作为奖励机制)Agent 能不能实现自我提升(self-improve)?一方面,Agent 在和环境交互的过程中会不断获得新数据;那它能不能自己找到或构造 verifiable reward(可验证的奖励)?交互中积累的 experience(经验),能不能被更有效地利用起来?
今天又是一集机器人专场。嘉宾是光轮智能创始人兼CEO谢晨,他曾在英伟达、Cruise及蔚来汽车担任自动驾驶仿真负责人。我们的话题非常具体,即:仿真与合成数据。今天的具身智能尚且没有找到scaling law的有效配方,其中,数据是一个关键卡点。我们106集的嘉宾银河通用创始人王鹤就提到,真实数据在他们的训练数据比重仅仅1%,合成数据挑起大梁。今天这集节目,我与谢晨聊了聊仿真与合成数据的实操细节。02:00 开始的快问快答02:48 高频词汇解析:Sim2Real(从仿真到现实)、Sim2Real的gap、合成数据04:31 从Cruise到英伟达到蔚来,怎么做合成数据和仿真?14:11 制作合成数据的具体流程?合成数据与真实数据的配比?16:17 在合成数据上,智能驾驶和具身智能的区别(智能驾驶是视觉的游戏,具身智能的物理交互最关键)32:41 物理的Real2Sim(真实到仿真)工作流是怎样的?怎么评估成功的仿真?关键技术节点?46:18 Physical Intelligence(π)对仿真与合成数据的两难态度48:55 辣评Meta 300亿美金收购Scale AI和极其aggressive的Alexandr Wang53:57 合成数据目前面临的瓶颈55:25 全球具身智能产业链Mapping:硬件公司(宇树)基座模型公司(π、Skild、英伟达和DeepMind)在垂域落地的软硬结合公司(Figure,特斯拉Optimas、The Bot Company)以仿真为中心做端到端落地的公司(光轮)(“特斯拉Optimas的管理文化和π完全不一样”)01:09:22 美国存在具身模型层的创业机会,中国在我看来字节、小米、理想更适合做“大脑”01:15:33 老黄在内部说:NV is a simulation company01:21:25 终局的模型应该是是跨宇宙、跨世界、跨本体(提升跨宇宙的能力,本质是提升泛化性)01:23:28 具身智能的产业还在GPT-1阶段,还没找到scaling law的配方01:28:21 我创业刚开始,从具身的本科开始学起01:37:37 最后的快问快答【机器人专场】逐篇讲解机器人基座模型和VLA经典论文——“人就是最智能的VLA”和王鹤聊,具身智能的学术边缘史和资本轰炸后的人为乱象
今天的嘉宾是地平线创始人兼CEO余凯博士。在过去49年人生中,他一路闯关过德美学术圈、中国互联网圈、创投圈、资本圈、汽车圈。在每个圈子和江湖,都从籍籍无名的无名小卒开始升级打怪。到最后,在每个圈子,他混得都不错。一位与他打过交道的前企业高层评价,余凯是科学家里非常具有社会智慧的一位。余凯毕业于南京大学和慕尼黑大学,毕业后,先后就职西门子、NEC研究院,于2012年回国加入百度,又于2015年离职创立地平线。很巧的是,2025年正好是地平线创立10年。今年上半年,我与余凯博士聊了两次,这集节目是他的一部口述史。随着大语言模型浪潮爆发,更多人工智能科学家从高校系统涌入创业轨道。余凯的创业观,也许能给大家一些启示——创业不仅是技术和商业,也不仅仅有刀光剑影,更是一部人来人往的江湖故事。就像电视剧《少帅》张作霖的台词:“江湖不是打打杀杀,江湖是人情世故。”2025年,我们和AI共同进步!03:06 初入学术江湖一开始在学术圈籍籍无名,算命先生说我24岁前“籍籍无名,劳而无功”发表过100篇论文,我很陶醉,夜深人静都会翻我以前的paper自我欣赏结识Geoffrey Hinton、Yann LeCun、吴恩达的故事我这边的对面坐了一个人特别的沉默,没人搭理他,一个人在那吃闷饭——这个人叫Richard Sutton,前段时间拿了图灵奖31:18 再入互联网江湖我应该是旅美人工智能华人学者第一个回国的我立刻就跟Geoffrey Hinton写信,他回信:Kai,挺好的,但你介不介意我也问一下其他公司?我当时拿到的授权是,最高出到2400万美金,2400美金以后,每一次出价就要跟国内商量我为了小概率能赢,抢先第一个出价,1200万美金“哎呀,你看Geoffrey Hinton开会好像不太出现啊,他在干嘛…?”我就问他:唉,Andrew(吴恩达)你在干嘛?各方面怎么样?开始试探他吴恩达一下子震惊到了!说:你小子把我忽悠到百度,你自己跑掉,太不够意思了吧?51:19 又入创业江湖我做了3个投资:买了英伟达,买了特斯拉,全身心把我投到地平线这个哥们跟我讲:兄弟,你知道吗?我现在在我家的地位,就靠你那句话!地平线刚创立那一天我看了一下,英伟达才是一个107亿美金公司,现在是3万亿!吴恩达在Google lead谷歌大脑,有一个frustration(沮丧)是什么?不能买GPU!共识要么是错的,要么是没价值的你的商业的secret是什么?有什么东西你看见了别人没有看见?这个世界是不是有Bug?这个世界是不是有通向未来的窄门,而大部分人没有关注到?01:11:21 也入资本江湖我们一页BP没写,就融了第一轮,我觉得:哎呀,Life is so easy!结果第二轮就发现,见了50-60家机构,没一个下单。特别tough……没人理解……我说的简直是口干舌燥……地老天荒……昏天黑地……也没人动心我定了一个铁律:我跟投资人第一次见面,绝不能在他办公室,一定要在我办公室我继续装!我说:我真的没时间,我就是一个专注的、情商低的科学家,正在倒腾我自己的事情,懒得理你我们创造了C轮业界传奇的12小轮,一把拿了16亿美金——这也是一个反共识——中间没有加1分钱估值哇,地平线竟然有102家股东投资机构,我都不知道我怎么磕出来的01:21:39 转战汽车江湖科学家创业通常有这个问题:360度扫射曾鸣那堂课上完以后,我们班好多同学回去都去砍方向、裁团队有天晚上睡觉,我梦中突然一惊:我靠,这样不对啊!和长安:故意输球,你们要优雅地、不露声色地、故意地输啊和李想:李想在2019年初,我们俩爬山他讲:你应该聚焦汽车方向和何小鹏:我现在还没有磕下小鹏————有的时候你要强攻,有的时候你要迂回和王传福:我们逮着机会窗口,相当于这个门开一个小缝,咱们就呲溜一声冲进去02:09:48 我不是江湖人领导者我的role model是刘邦电影这些角色,你知道我最喜欢谁吗?《飘》里的白瑞德我的名字姓余,公司的名字地平线——余地,余地,做人做事永远要留有余地智能驾驶:主机厂未来不会自研,它是一个标准化的功能3年完成100%hands-off,5年完成100%eyes-off,10年完成100%minds-off死门是什么?机器人的CUDA下一代芯片创新02:35:23 最后的快问快答这个世界我认为是写好了程序,每个人都是按照剧本来演02:39:26 补充花絮传授技巧:如果你决心离职,不要说公司任何不好闫俊杰的发型像我(玩笑)我和吴恩达在美国serious讨论过创业我为了调一个校招生喝茅台,不像李想手起刀落微信头像为什么关公?【从蒸汽机到无人驾驶】系列《对李想的3小时访谈(播客版):宅男、AI、家庭、游戏和天梯》《和何小鹏聊,FSD、“在血海游泳”、乱世中的英雄与狗熊》《对话奔驰全球CEO康林松:转型期CEO和转型之中的139岁奔驰》《和楼天城聊聊Robotaxi和ACRush:“L2做得越厉害,离L4越远”》本集文字版:《对话余凯:世界不止刀光剑影,是一部人来人往的江湖故事》
这集没有宏大叙事,相当随性。嘉宾是清流资本创始合伙人、百度前技术VP梦秋。关注《商业访谈录》比较久的朋友可能知道,梦秋基本每年都会来返场一次,和我们一起catch-up当下的创投水温以及她自己的生活。在狼性文化蓬勃的中国投资人圈里,梦秋一直是很佛系也很道家的存在。这一集更是松弛,她直言工作挺无聊,所以在聊了正经话题以后,我们也聊了聊读书、旅行、观影和女生的碎碎念。(本次节目录制在4月底)我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)02:00 2025年资本寒冬过去了吗?没…04:00 DeepSeek的出现,让AI应用创业变得活跃了吗?没…10:45 现阶段各种Bot的体验:神婆?舔狗?尤其点评微信、元宝和小红书25:28 探讨一下,微信里怎么做Agent?通用Agent成立吗?31:25 垂直Agent的创业机会和创业者35:52 现在的组织倾向于小组织,这可能利好年轻创业者37:42 为啥组织更小,融资额却更高了?38:18 除了Agent,还在看的是具身智能(仿真器很重要)43:57 可穿戴设备54:54 大模型公司58:31 这两年工作很boring,我的旅行之路01:03:55 我的读书之路01:12:34 聊影视行业(梦秋是中影独董)、《好东西》和女性主义梦秋此前的节目:《1. 和投资人梦秋聊聊加州、投资寒潮和林黛玉》《21. 投资人视角下的大模型和市场真实水温|和梦秋聊ChatGPT》《65. 风险投资的钥匙失灵了吗?和梦秋聊:蛰伏、更少人的游戏和啮齿动物》【更多信息】联络我们:微博@张小珺-Benita更多信息欢迎关注公众号:张小珺
今天继续《商业访谈录》的机器人专场,嘉宾是北京大学助理教授、银河通用创始人兼CTO王鹤。王鹤毕业于清华和斯坦福大学。他给我们从“具身智能”的学术缘起开始聊起,这是一个学术流派从一个学科中萌芽到边缘再到主流渗透的全过程。而随着ChatGPT诞生,“具身智能”这个小众概念,在过去2年成了新的资本宠儿——但一时间,也带来了新的乱象。我们探讨了一些具身智能产业界关键问题:1/具身智能起源于计算机视觉的学术流派,视觉、语言、智能的关系是什么?为什么VLM(视觉语言模型)的表现显著弱于LLM(大语言模型)?2/具身智能的最大困境之一是数据采集,合成数据是正解吗?具体应该怎么做?3/如果大模型提倡的是“智能即产品”,那么具身智能呢?王鹤的回答是“生产力即产品”。去年底,英伟达创始人黄仁勋来华访问。答谢宴上,王鹤不仅和黄仁勋同桌,而且就在做黄仁勋旁边(挨着坐)。在节目最后,我们也聊了聊这个有趣的插曲——他提到,那晚黄仁勋吃了不少水煮肉片。2025,我们和AI共同进步!我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)03:00 开始的自问自答05:58 语言不是智能的本质,而是“一次跃变”“具身智能”和“机器人”是不同学术流派“具身智能”起源于“计算机视觉”的研究流派视觉有智能吗?纯视觉智能的可解释性差,是端到端的语言不是智能的本质,不能说没有语言就没有智能智能的本质是什么?“一种视情况对环境做出反应的能力”语言是人类能产生这么高智能的“一次跃变”视觉的本质是一种非常强的sensor(传感器)25:08 具身智能的学术边缘史具身智能最早兴起的task(任务)是,导航加入视觉模态,强调Perception–Action Loop(感知-动作循环),成为具身智能研究流派能立起来的核心叙事标志性事件:“具身智能是计算机视觉未来的三颗北极星之一”(李飞飞)我和Skild创始人Deepak Pathak在Facebook人工智能实验室FAIR打过交道41:15 我的学术之路2016年,博士第一个项目:从人类视频里学多步的人与物体交互过程的生成(动画领域)在Stanford博士第一年,在不喜欢的方向非常挣扎,后来换组、换方向Stanford是高度自由的市场:你可以随时踢你老板,你老板可以随时踢你第一篇论文憋了很久,很绝望完全从视频中学习,学习世界模型,还没成为当下能推进具身智能的技术我的第二个项目:位姿估计和合成数据相关2020年李开复曾在湾区丽思卡尔顿组织brunch,观点分歧回国坚定以家庭机器人为目标推进research,根本没有allies(盟军)01:25:08 具身智能的软件和硬件是螺旋上升的问题ChatGPT火了以后,很多人开始找我创业,我说创不了所有工业机械臂在去年的全球总产值才1000亿RMB,和理想一家车企产值相当如果采取不成熟的激进的硬件方案,对智能会是一种拖累在这个硬件基础上,我们的方案是,做相对专用的智能和越来越通用的智能VLM为什么显著弱于LLM?互联网视觉数据/所有人眼观测的覆盖〈〈〈互联网文字数据/人类所有说的话的覆盖(VLM数据不够,VLA的Action数据是最近两年才开始收集的)01:44:34 我们要避免陷入以下泥潭这一代具身智能公司相比此前机器人公司,差异在哪?在我看来,具身智能公司如果陷入以下两个泥潭,天花板会很有限:1、“长期漂浮”的公司;2、“算不过来账”的公司,边际成本不降我们要做一个应用场景内的泛化(现在选择的是货架场景)在我看来,机器人领域的头部效应很重01:55:17 具身智能是,“生产力即产品”雇人摇操采真实数据的成本到底有多高?一笔经济账真实数据在我们训练数据的比重是1%,合成数据管线挑起大梁行业内的tricky现象:把没有功能的机器人卖给别人(这是一种商业模式)关于合成数据和Sim-to-Real(仿真到现实迁移)的常见误区有出货量后的数据回流和数据飞轮如果大模型是“智能即产品”,那么具身智能就是“生产力即产品”02:13:51 资本轰炸后的人为乱象谁在创造生产力,谁在讲故事,这是最乱的——这个源自美国对Figure的估值400亿美元的两种逻辑有的人胆子很大,不告诉别人我是摇操,但实际摇操呼吁:真实展示!不要摇操!5年内我们一定要有万台以上的应用,如果做不到这个,我们这个领域就被证伪了!不要去搞一些砸我们行业招牌的事情!这些模式是很可怕的,是在砸这个行业的饭碗通用机器人的到来不要想得那么快02:25:25 一个插曲去年黄仁勋访华为什么和黄仁勋同桌且在旁边?聊了什么?黄仁勋能吃辣,吃了很多水煮肉片02:28:26 最后的快问快答【机器人专场】逐篇讲解机器人基座模型和VLA经典论文——“人就是最智能的VLA”【更多信息】联络我们:微博@张小珺-Benita更多信息欢迎关注公众号:张小珺
《商业访谈录》访谈过很多中国新能源车企的CEO和高层,今天的嘉宾来自一家德国百年车企,他是奔驰中国自动驾驶与车联网研发负责人王忻。我们聊了聊中国汽车产业20年变革的历程,以及一家德国车企的转型与秘密故事。我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)产业大转型01:25 20年前,就连波导手机也做过汽车07:54 我曾在汽车Tier 1德尔福18年,3年前加入奔驰,背后是产业大转折09:30 过去20年全球汽车产业的几个技术周期(2004年以前,2004-2014年,2014-2020年,2020年至今)11:31 现在转变成数据驱动的时代,Tier 1黑盒交付的时代不再话语权27:40 中国团队和德国总部的话语权是争夺过来的吗?28:27 奔驰中国研发团队组织架构、沟通机制和battle34:08 德国企业的battle文化和美国企业是不同的41:23 为中国设计生产的功能要反向输出全球的时候,需要哪些流程?新技术43:21 智能化是不可逆的趋势,但不能激进46:50 车车通讯在L3实现以后需要重新定义51:54 科技和豪华的关系:如果智能平权,豪华的标准变了吗01:01:49 去年从规则算法切换到端到端的过程挺煎熬的01:04:40 激光雷达是一个很好的冗余01:05:35 CLA和豆包合作大语言模型139岁车企01:09:36 以人为本01:11:08 安全的步骤01:13:08 世界上第一位汽车驾驶员是奔驰创始人的太太01:15:00 在百年企业工作是什么体验——荣耀是什么?负担是什么?01:17:48 百年一遇的大转型、大变革01:33:22 奔驰CEO康林松会发脾气吗?相关单集:对话奔驰全球CEO康林松:转型期CEO和转型之中的139岁奔驰【更多信息】联络我们:微博@张小珺-Benita更多信息欢迎关注公众号:张小珺
随着AI的软件能力向硬件溢出,除了具身智能,智能眼镜或许是另一个会受益的产业。今天的嘉宾是智能眼镜公司Rokid创始人祝铭明(Misa),2025上半年Misa佩戴其公司开发的智能眼镜出现在一次演讲中,一度引发关注,今年也是他在硬件黑森林里创业的第11个年头。我们从他的第一家公司1000万美金被阿里并购开始聊起——聊了聊马云和吴妈,也聊了聊他的第二段创业、智能眼镜市场的中美对比、阶段与趋势。我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)02:00 开始的快问快答02:36 阿里1000万美金收购我的第一个创业公司,全部换成了股票05:14 最糟糕的时候,马云找我聊,引荐了Joe Cai(蔡崇信),又引荐了王坚博士08:05 我还有两个星期发薪水,账上只有4000块15:55 在阿里当高管,吴妈(吴泳铭)提出想做AI,成立M lab22:43 Rokid的融资、马云的建议27:40 吴妈当年是我的顶头上司,对吴妈的comments31:41 2019年重要决策:一星期内从AI切换AR赛道48:00 像器官一样的硬件会从手机切换到智能眼镜?59:17 重要决策之后裁员了一大半,清空了一幢楼01:05:45 转型后第一次PMF01:09:55 现在的智能眼镜在黑莓到iPhone 1的中间阶段01:11:52 AI在硬件上的展开:具身智能、随身智能01:13:05 在智能眼镜,明年上半年会是与巨头竞争的时间点01:19:29 马云总结创业公司和巨头竞争的4个机会:4个不01:23:38 中美定义智能眼镜产品的不同01:41:35 公司价值观第一条是玩心,老板总是那个trouble maker01:48:32 聊聊杭州创业者们01:59:05 硬件创业的黑森林02:27:00 最后的快问快答【更多信息】联络我们:微博@张小珺-Benita更多信息欢迎关注公众号:张小珺
今天的嘉宾又是一位AI应用创业者,Lovart创始人陈冕。他的产品成为2025年既Manus之后,另一个在全球斩获一定知名度的Agent。不同的是,Manus是通用Agent,Lovart是垂直Agent,面向设计师使用。与其说他是做产品的CEO,他的精神状态更贴近一名“战斗型CEO”。这次访谈发生Lovart火了之后,你能感受到陈冕在过去2年遭遇了补贴战争、产品下架、账上只剩4000块现金的绝境、怎么都融不到资等一系列愤懑之后——此时此刻,充斥着的要溢出的快乐。这是2025年对一位Agent创业者精神状态的截取。浪潮的大幕才刚刚拉开。2025,期待我们和AI共同进步!我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)03:00 开始的快问快答漂泊05:00 一个90后的不断跳槽的10年移动互联网经历(腾讯、360、百度、滴滴、摩拜、美团、每日优鲜、字节教育和剪映)07:02 经历了两次战斗,战斗正酣的时候是顶点,后面一地鸡毛13:58 从0到1做瓜瓜龙,刚升字节4-1,就撞上双减了15:18 换一种选择,会更好吗?AI来了,觉得自己被解救了25:25 AI至少是电脑的发明,比肩信息革命的变革(智能化vs信息化)28:58 被救赎的一刻:“希望是一切痛苦的解药,是一切痛苦的意义”29:51 避开大模型主航道和语言主轴,选择多模态、创作2023年:前一秒赢了中国第一,下一秒被下架了、裁员了、没钱了36:00 见的第一个投资人是张予彤37:43 2023年6月-9月,我全情的战斗!——3个月烧了200万美金39:03 前一秒刚赢了中国第一,下一秒被下架了、裁员了、没钱了40:45 怎么看投流?怎么看Kimi投流?42:35 被下架什么心情?奔溃啊44:09 公司账上只剩4000块45:17 现在获客成本是多少?怎么有效获取用户?49:38 时机稍纵即逝,好的节奏时一定要扩大战果2024年:哐哐哐狂投50:05 2024年哐哐狂投,一个月一轮融资,close了3轮52:21 我们非常清楚第一代产品liblib的局限性,开始考虑第二代产品55:58 第二代产品Lovart是怎么预研的?2025年:Lovart火了59:48 如果这个设计师叫Lovart,他/她又Love art,还蛮酷的01:01:47 争抢“全球第一个XX Agent”究竟带来什么?01:03:00 为啥搞邀请码成了标配?01:03:56 Lovart火了之后01:07:30 AI应用创业的know-how这是我创业最!!爽的!!东西!!01:19:57 我是双子座,时而发狂,时而很软01:24:04 与焦虑共生,就是干!01:25:26 这是我创业最!!爽的!!东西!!01:28:00 但在这一刻就是好爽啊!!!我爽了好一会儿——就是我朴实的快乐哈哈哈哈哈01:28:32 给我多少钱、给我多少职级,都买不到01:32:35 在陌生领域的创新,就像用火柴在潮湿的木头上反复地滑动,点燃又熄灭;直到有一天,你抓住了某一个缝隙,把木柴点燃,火势弥漫整个山洞01:33:58 2023年底去高瓴办公室,阳光中,我恍惚了大闹一场,悄然离去01:35:00 童年:漂泊、武侠小说和电脑游戏01:26:01 我不知道故乡是哪,只能一直往前走01:38:46 给其他AI应用创业者的建议01:42:29 最后的快问快答【2025上半年Agent创业三部曲】对Manus创始人肖弘的3小时访谈:世界不是线性外推,做博弈中的重要变量对YouWare创始人明超平3小时访谈:今天Agent像大猩猩刚拿起一根烧火棍Lovart创始人陈冕复盘应用创业这两年:这一刻就是好爽啊!!哈哈哈哈哈【更多信息】联络我们:微博@张小珺-Benita更多信息欢迎关注公众号:张小珺
今天这集,《商业访谈录》第一次迎来一位co-host,是大家熟悉的李广密。广密邀请了大模型公司阶跃星辰的首席科学家张祥雨,来聊聊,多模态的前世今生和未来技术的前沿走向。张祥雨在这集节目详细阐述了:他参与的多模态的10年历史,对多模态的全新思考,以及所预见的下一个“GPT-4时刻”。他提到一个细节:在训练过程中他曾经发现一件百思不得其解的现象——模型的通用对话能力、情商和知识量都是随着模型变大变得更强,但模型的推理能力(尤其是数学)表现却是先上升后平缓,再扩大反而是下降——这点在业界还未引发广泛讨论。关于这个怪现象,他也给出了自己的解答。下面是广密和祥雨的聊天。2025,我们和AI共同进步!我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)多模态研究的10年史:迷茫和转机02:00 张祥雨的学术经历和个人研究主线12:25 CV(计算机视觉)向NLP(自然语言处理)的学习历史17:14 2022年我开始对单纯靠视觉学出“CV领域的GPT时刻”比较悲观18:22 纯视觉这个domain有什么问题?GPT这样的生成模型你可以同时拥有生成、理解和人类对齐,而静态图像这三者是割裂的24:23 我停止了对静态图像表征的研究,构思新的研究主题:短期内利用视觉和语言的对齐关系29:10 经过尝试还是没做到图像的理解、生成和对齐一体化,我得到一个越来越强的生成模型,和一个越来越强的理解模型,没有起到叠加效果——为什么如此难以融合?38:45 做了大半年十分迷茫,但在此刻出现了转机训练大模型发现的怪事、蛛丝马迹与办法41:11 训练过程中发现了一件百思不得其解的怪事:模型的通用对话能力、情商、知识量确实模型越大越强,但模型的推理能力(尤其是数学)表现是先上升后平缓,再扩大反而是下降43:10 一些蛛丝马迹:更大的模型做数学题倾向于跳步,不老实44:33 经过分析,这是next token prediction的本质缺陷45:42 更大的压缩率未必对应更高的计算精度,我们来做一个思想实验47:27 生成模型的“特征坍缩现象”50:48 解决方案就是引入RL(强化学习)53:28 o1的核心是思维链的pattern——“做思考模型,pattern is all you need”01:01:52 当模型走到某一步,摆在面前有两个分支——走左边?还是走右边?——一个token之内到底能不能解决?(critical decision)——不能,所以引入反思pattern01:10:16 o1范式的本质是一种Meta-CoT ,是CoT的CoT对多模态研究的新思考和新进展01:10:57 研究完o1,返回研究为什么视觉生成可控性这么差,就有了眉目01:15:13 简单把生成和理解做到一起,难度非常大,缺失了重要一环CoT01:15:54 去年中开启新的project:视觉理解(视觉空间的Long CoT)01:19:06 尝试了半年,结果给大家透露一下吧!01:21:30 o系列不仅泛化了domain,更吸引人的是泛化了pattern01:22:16 博弈类问题是难以泛化的领域,有很多无效思考和低级错误01:24:07 o1激发的反思pattern,在预训练语料中都有分布了01:31:31 关于预训练加多模态数据有两种说法:影响了text智商?还是增强了scaling law?01:36:43 往后两条腿走:扩充预训练语料和扩展动作空间01:45:42 多模态的“GPT-4时刻”还有多久预见下一个“GPT-4时刻”01:46:56 long context和多模型协作02:07:09 架构不重要,架构是服务算法和系统的(为什么我说Linear Transformer不本质)02:08:30 下一个“GPT-4时刻”?模型的在线学习/自主学习02:21:22 澄清一些有关Agent的观点02:25:00 人虽然没有生成器官,但人有世界模型02:26:34 我们的智能水平还在为视觉挣扎,机器人领域在抢跑【更多信息】联络我们:微博@张小珺-Benita更多信息欢迎关注公众号:张小珺
今天的嘉宾是明超平(小明/Leon),一名AI应用创业者。2024年的AI叙事还是大模型,《商业访谈录》访谈了杨植麟、王小川、李开复等大模型公司创始人;稍一转眼,2025年的AI叙事已然变成应用公司和Agent——新的主角登场了。这集节目和往期《对Manus创始人肖弘的3小时访谈:世界不是线性外推,做博弈中的重要变量》一样,也是来自一线“AI应用爆发”、“Agent爆发”的前沿声音。在中国创投圈,明超平是一位创业伊始就受到资本相对共识的创业者。他出生于95年,曾先后在OnePlus、ByteDance、Moonshot做产品。这是他第一次做CEO,发的第一个产品叫YouWare。他和我们此前的两位嘉宾有一些渊源:一个是杨植麟,2023年他和杨植麟深谈了10个小时,从白天到黑夜,聊完决定加入Moonshot;另一个是肖宏,有时候我会听到创投业人士将小明与小红对比来聊,说他们都属于“Hands-on型、产品型创业者”。是不是这样呢?今天的3小时访谈希望能呈现小明的真实状态,是不是大家说了算。不过,虽然老被关联,小红与小明至今没见过。期待2025,我们和AI共同进步:)我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)03:16 开始的快问快答那些散漫的叛逆的挫败的少年成长04:36 童年和少年片段06:52 我在武大打辩论,尤其擅长四辩13:00 辩论让我学会的最重要的:“永远具有第三方视角,辩论不是说服你的对手”,“1秒钟把自己变成傻子”(by张小龙)14:40 大学后两年基本睡在实验室里,沉浸式打“智能汽车竞赛”,拿了国奖19:43 哎,好惨,惨痛的经历——我是输掉比赛最多的队员,也是拿最佳辩手最多的队员23:06 那是学长的退役比赛,我到今天还很愧疚产品经理之路的前三站:OnePlus、ByteDance、Moonshot26:37 产品经理之路第一站:OnePlus导师带我们去坐地铁、逛商场30:18 “体验不是数据”:续航数据和续航体验不划等号,95-100%和0-5%电量是用户对体验最敏感焦虑的时候33:58 产品经理之路第二站:刚去字节极不适应,觉得自己很菜37:42 字节产品方法论劣势是什么?“它会磨灭掉很多灵光一现的创意”39:35 “数据是‘开车的后视镜’,但它不能指引你前进”41:03 字节没有乔布斯,字节没有张小龙,但字节有一鸣啊——有一些很小很小的创业团队,一鸣都聊过了42:08 怎么看字节过去这些年出来了许多创业者,但无人大成?43:28 23年和杨植麟聊了10个小时,聊音乐、艺术、爱好、产品、过去的经历,实在是到晚上8点我们要去吃pizza,我说“要不给我讲讲技术吧”50:14 海外产品Noisee的走红与骤停01:03:03 字节能成为字节,契合了时代几个重要变量(移动设备普及、带宽速度、推荐引擎)跳下大船创业啦!01:05:05 立马就遇到the bitter lesson(苦涩的教训)01:11:59 想雕花的本能,情不自禁给它更多脚手架,你会和这个时代的最大变量背道而驰01:12:45 突然意识到,这个东西不对劲——产品没上线就停掉了01:13:18 失眠的顿悟:AI时代关键指标之一是“token消耗速度”,要追求“per token valuation”01:16:33 “壳”被低估了,应该叫“容器”和“环境”(环境是人的反应器)01:17:52 只给用户一个Chatbot输入框,是蛮不负责任的01:21:18 今天Coding发展和当年Camera类似,早期聊相机说的是“拿着单反的人”,巨大变化是出现了新的人群——“手机摄影师”01:23:50 早期趋势变量是出现新的人群,增速快,今天的新人群是“Vibe Coder(氛围编程师)”01:25:23 今天Anthropic是不是承担索尼的角色?其他创业公司把时间花在Camera/基座模型上,还是花在——随着Camera迭代出现了Snapchat、Instagram、TikTok、TikTok Live今天的Agent就像大猩猩刚拿起一根烧火棍01:37:12 Agent未来可能的两种生态:类比新加坡vs美国01:40:44 Page rank变成Agent rank01:42:07 如果你把所有to C公司都变成to B公司,会受到大家的反抗01:44:02 Agent的网络效应01:46:02 我们也想成为OS Agent呀!——路径不告诉你:)01:46:30 我对团队说:“咱们99.9%是要死掉的”01:46:57 今天的Agent像一个大猩猩拿起石头开始砸东西01:47:58 “永远相信Model会变好,永远相信Model和你无关”01:49:50 基础模型在造更聪明的人,应用公司在通过环境/经验适用我们的生产需求01:53:54 我设想的OS Agent:它是活的01:58:26 Agent接下来会像人类社会出现部落,遇到信任问题,需要身份证、密码锁02:03:33 过去2年对AI技术和产品的观察(以更高效的方式消耗token、压榨智能)第一次做CEO02:14:50 给你的员工提供情绪价值02:19:53 90后founders更自信、更洒脱、更叛逆02:21:17 融资风生水起,我却感觉如履薄冰02:23:35 有意识地对抗Ego02:33:45 棋手和对弈的人02:36:57 最后的快问快答相关单集:和杨植麟聊大模型创业这一年:人类理想的增量、有概率的非共识和Sora和王小川聊再创业这一年:回应朱啸虎与中国AGI第三种可能和李开复聊聊:如果美国形成AGI霸权,我们应该怎么办?对Manus创始人肖弘的3小时访谈:世界不是线性外推,做博弈中的重要变量【更多信息】联络我们:微博@张小珺-Benita,小红书@张小珺更多信息欢迎关注公众号:张小珺
2025年3月底,奔驰汽车全球CEO康林松先生(Ola Källenius)来华9天,期间我对他做了一次访谈。奔驰是世界上第一个发明了燃油车的公司,现在正处于奔驰139年历史上最重大变革时期,可以说康林松是主导这场关键变革的“一名转型期CEO”。他1969年出生于瑞典,1993年加入了奔驰,绝大多数职业生涯都在奔驰;6年前,他在2019年担任了奔驰全球CEO。值得一提的是,他是奔驰历史上第一位在上任时非德裔的CEO。我和康林松先生聊了聊他上任6年的重要战略决策(包括豪华车战略、电动化战略)、中国市场的成与败、科技平权与豪华车是否有悖论,以及在他领导之下的这场奔驰有史以来最重大的关键变革。我想给大家呈现的是一个,转折之中的139岁巨人。我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:) 04:12 第一部分:谈中国市场 过去6年,你对中国市场最重要的观点是什么? 你们在中国的市场份额过去3年一直下降,什么原因导致的? 这是否意味你们在中国的电动车之战中,输了? 你们更强调豪华车战略,而不是电动化转型,是这样吗? 你喜欢中国汽车里的彩电、冰箱、大沙发吗? 你们在中国市场的成败会决定全球转型的成败吗? 计划采用哪些创新策略来扭转在中国市场的局面? 18:24 第二部分:谈AI和新技术 外界说特斯拉在电动车上比你们领先10年,你如何回应? 但如果你们无法控制所有技术,你们能控制自己的豪华车吗? 随着汽车行业转向电动化和智能驾驶,奔驰没有完全引领这些新技术,奔驰还能主导豪华吗? 你们正在测试固态电池,能否分享更多进展? 人工智能将如何改变全球汽车行业的游戏规则? 中国DeepSeek正在全球范围内崛起,你会考虑合作吗? 随着“技术民主化”,技术不再是超级排他性,消费者还需要豪华车吗? 如果必须在豪华和科技之间选择,你会选择哪一个? 如果卡尔本茨先生还在世,你觉得他会选哪一个? 40:17 第三部分:谈转型期CEO和转型之中的奔驰 拥有139年历史的奔驰巨头,如今正处于其历史上前所未有的转折点上? 回到2019年5月22日,你接任首席执行官的那一天,那天都发生了什么? 作为变革时期掌舵者,请说出你至今面临过的最大困境 特斯拉和中国车企仍然是创始人驱动,而德国汽车制造商经历了几代职业经理人,这是否会让德国汽车制造商更加保守? 你有没有感觉过,这位139岁的巨人转型缓慢? 当你做出每一个重大决定时,有没有觉得本茨先生在关注着你?这会让你有很大压力吗? 如果能问卡尔本茨先生一个问题,你想问什么?
loading
Comments (1)

Michael WANG

垃圾

Dec 18th
Reply
loading