猿来如此

这里没有高深的理论，只有和你一样关心科技和生活的普通人。每一期，我用最简单的语言聊聊新技术、行业故事，还有那些让人会心一笑的小发现。关注《猿来如此》，和我一起，慢慢变好。

PLAY ON CASTBOX

万亿 Token 揭秘：除了写代码，原来大家都在用 AI 搞“角色扮演”？

本期播客来自 OpenRouter 和 a16z 的实证研究，基于对该平台超过 100 万亿个代币的大型语言模型（LLM）交互数据进行分析。研究指出，自从 o1 等推理模型发布以来，LLM 的使用范式已发生重大转变，向着多步骤、复杂化的代理式推理工作流程演进，体现在工具调用和更长的序列长度上。在应用类别方面，编程已成为最主要的专业工作负载，而创意角色扮演则在开源模型的使用量中占据了最大份额。报告观察到一个结构性的多模型生态系统，开源模型生态正在迅速扩张并变得多元化，尤其在亚洲地区和中国开发者的推动下。此外，对用户留存的分析揭示了“灰姑娘水晶鞋效应”，表明模型如果在发布之初完美契合高价值工作负载，就能获得持久稳定的用户群。这些发现共同突显出，模型能力、使用场景和成本与用量的复杂平衡关系决定了 LLM 在现实世界中的采纳路径。

12-08

17:30

Ilya Sutskever 谈 AI 为何高分低能与终极智能形态

本期播客概述了关于人工智能现状与未来发展方向的深刻对话。讨论的核心在于当前大型语言模型 (LLM) 在评估中的优异表现与其对经济影响的滞后之间存在的费解脱节，并认为随着数据的限制，单纯依靠规模化 (scaling) 的时代正走向终结。对话重点强调需要重新回归研究时代 (age of research)，以解决模型在泛化能力 (generalization) 和样本效率 (sample efficiency) 方面的根本缺陷，这是目前 AI 与人类学习能力相比的不足之处。通过借鉴人类情感 (emotions) 在进化中作为指导价值函数的作用，他们探讨了诸如价值函数 (value functions) 和强化学习 (RL) 等技术可能提高模型学习效率。最终，两位人士讨论了超级智能 (superintelligence) 必然到来以及如何确保其安全部署 (safe deployment) 的问题，呼吁所有领先公司应收敛于共同的对齐策略 (alignment strategies)，使 AI 关心所有有情生命。

11-26

16:41

三百万美元的教训：Cortex 如何走向失败和重生

本期播客摘录自 YouTube 频道“Dan Koe”的视频“Kortex：300 万美元的错误”的文字记录，主要讨论了其初创公司在开发名为 Cortex 的“第二大脑”应用程序时所犯的错误。创作者和联合创始人解释了 Cortex 如何因不适当的团队结构和构建自己的技术而非使用第三方解决方案等原因导致开发速度放缓，最终使其无法跟上市场步伐。因此，他们秘密地从零开始重建了应用程序并将其更名为 Eden，这个新产品专注于为创作者提供强大的搜索和媒体处理能力，旨在通过学习过去的失误来加速迭代。该团队强调了承担大风险的必要性，以及在创业过程中承认和改正错误是成功的关键。

11-24

20:12

Yann LeCun 要干的 Advanced Machine Intelligence (AMI) 到底是个啥？

本期播客主要关注两个截然不同的领域：人工智能（AI）的发展及其伦理考量，以及公用事业中智能电网技术，特别是高级计量基础设施（AMI）的部署和益处。关于 AI，文本讨论了自主机器智能的架构，例如 Yann LeCun 提出的微分模块和分层联合嵌入预测架构（JEPA）模型，并探讨了通用人工智能（AGI）的定义和时间表，这在 AI 专家中存在争议。AI 伦理是一个重要主题，重点是 AI 偏见（如性别和政治偏见）、责任归属问题，以及监管工作的必要性（例如欧盟的《AI 法案》和美国的倡议），此外还讨论了赋予机器人**“电子人格”的伦理问题。在公用事业方面，美国能源部的报告详细介绍了 AMI 和客户系统从“智能电网投资赠款”（SGIG）计划中获得的成果，展示了该技术带来的运营效率、成本节约**（例如减少“上门服务”）和改进的客户服务，并强调了系统集成（如与计费和停电管理系统）的关键性。同时，另一些文件也提到 AMI 与高级配电管理系统（ADMS）结合的重要性，以应对日益复杂的电网挑战。

11-20

17:24

谷歌 Gemini 3 Pro 技术革命三支柱解析

本期播客概述了 Google Gemini 3 Pro 模型的发布及其技术能力，将其定位为公司迄今为止最智能的模型。资料重点介绍了该模型的 Sparse Mixture of Experts (MoE) 架构和高达 100 万令牌（Token）的巨大上下文窗口，这使其能够处理大规模、多模态的输入，包括文本、代码、图像、音频和视频。此外，文档详细介绍了 Gemini 3 Pro 卓越的 Agentic 工作流程和编码能力，例如通过命令行界面（CLI）进行复杂的跨工具调试，以及将手绘草图转换为功能代码。最后，资料还讨论了使用该模型时的成本优化策略（如上下文缓存和 thinking_level 参数）以及严格的安全指南，以确保负责任的部署。

11-19

16:28

告别四十小时工作制，像达尔文一样高效

本期播客是一段 YouTube 视频的摘录，视频作者 Dan Koe 讨论了 40 小时工作制的消亡，并认为其是一个“数学骗局”。作者主张短工作日，认为效率和产出质量比工作时长更为重要，并以查尔斯·达尔文为例，说明成功人士通过更少的身体劳动和更多的精神工作（思考、策划）来实现成就。视频旨在指导观众摆脱 9-5 工作的束缚，回归到自我导向的、充满活力和意义的“工匠式”工作中，这在技术进步的现代比以往任何时候都更容易实现。作者提供了实现这一目标的三个核心建议：认识到伟大工作不受时间限制、专注建立受众和产品，以及创造自己想看到的产品来解决问题。

11-17

16:18

Cursor 创始人访谈：爆火背后的战略与用人术

本期播客是 YouTube 频道“a16z”上关于 Cursor 联合创始人兼首席执行官 Michael Truell 的视频访谈摘录，讨论了其公司在人工智能（AI）编码领域的发展历程。Truell 分享了 Cursor 的起源故事，包括从一个不成功的机械工程 AI 项目转向编程的经历，以及其早期成功归功于对 VS Code 集成的专注。讨论还涵盖了公司在处理快速增长和规模化方面的挑战，如应对 API 提供商的限制和多云基础设施的策略。此外，他详细阐述了 Cursor 独特的招聘流程、转向多产品战略的必要性，以及利用人才收购（M&A）作为获取顶尖人才和扩展产品线的工具。

11-17

11:32

TOON 如何用元信息省钱并提高 AI 准确率

本期播客是一份 GitHub 存储库的摘录，重点介绍了一种名为 TOON (Token-Oriented Object Notation) 的新数据序列化格式。TOON 的设计目的是作为 JSON 的一种更紧凑、更节省 Token 的替代方案，专门用于 LLM (大型语言模型) 提示输入。文中详细解释了 TOON 的语法特性，例如其表格数组结构和缩进格式（类似于 YAML），并提供了一系列基准测试，这些测试结果表明 TOON 在 LLM 数据检索准确性和 Token 效率方面优于标准的 JSON、YAML 和 XML 格式。此外，该来源还提供了用于编码和解码 TOON 数据的 TypeScript SDK 和命令行工具的安装和使用说明。

11-15

15:39

扎克伯格基金为何要卖铲子治愈所有疾病

本期播客摘自 YouTube 频道 a16z 上关于“马克·扎克伯格与普莉希拉·陈：AI 将如何治愈所有疾病”视频的采访记录，其中马克·扎克伯格和普莉希拉·陈讨论了陈 - 扎克伯格倡议（CZI）的工作。他们的核心目标是加速基础科学研究的步伐，以在本世纪末治愈和预防所有疾病。实现这一雄心壮志的关键策略在于开发新型科学工具，尤其是利用人工智能（AI）构建虚拟细胞模型和标准化数据，来帮助科学家们进行更高效、高风险的实验。他们强调了跨学科合作以及建立开放资源（如 Cell by Gene）对于整个科学界的价值，并认为 AI 的进步将使得实现这一目标的时间表大大提前。

11-15

13:00

提示工程最佳实践指南

本期播客摘自一篇来自 Claude 团队的博客文章，主题为提示工程的最佳实践，旨在帮助用户从大型语言模型（LLM）中获得更优的输出。文章详细介绍了提高 AI 交互质量的核心技巧，包括保持明确和清晰、提供上下文和动机、具体化指令以及使用示例。此外，内容还涵盖了高级技术，例如思维链提示法和提示链，用于处理复杂的任务，并提出了避免常见错误和故障排除的建议。整篇文章强调，成功的提示工程是上下文工程的基础，关键在于可靠地实现目标。

11-14

23:58

Claude Skills 如何打破 AI 设计的平庸魔咒

本期播客摘自一篇来自 Claude 博客的文章，重点讨论了如何通过名为 Skills 的功能来显著提升大型语言模型（LLM）生成的网页前端设计的质量。文章指出，LLM 在默认情况下倾向于产生通用且“同质化”的设计（例如使用 Inter 字体和紫色渐变），这种现象被称为分布收敛。Skills 旨在通过允许开发者动态加载包含特定领域指导（如排版、动画和主题）的上下文文档，解决这一问题，从而在需要时提供详细的设计约束，同时又避免了在所有任务中都增加永久性的上下文开销。此外，文章还展示了 Skills 如何帮助 Claude 利用现代工具（如 React 和 Tailwind CSS）构建更复杂、更具功能的交互式代码成品，最终使 Claude 能够生成更具创意和品牌特色的用户界面。

11-13

27:02

技术创作者的内容永动机：从“艺术灵感”到“工程系统”的进阶指南

本期播客提供了一份面向 AI 与科技领域开发者的系统化“内容永动机”工程指南。这份框架将内容创作视为一个可优化的工程系统，旨在帮助创作者摆脱对“灵感”的依赖，实现高效、可持续的内容产出。系统核心包含五个模块：内容引擎（知识管理），建议开发者采用 Obsidian 和 Notion 混合系统搭建“第二大脑”；系统燃料（创意飞轮），通过主动监控行业趋势和被动收集观众反馈来确保创意源源不断；内容蓝图（策略），建议实施“混合常青”模型，将内容分为概念支柱、终极指南和趋势观点三个层级；AI 生产线（工作流），详述如何利用 Copilot、Descript 等工具将写作和视频制作效率提升十倍；最后是内容放大器，指导创作者将核心“中心内容”高效地复用到多个“辐射内容”中，实现影响力的最大化。

11-13

37:33

格兰特·李：构建 Gamma 的 AI 演示公司

本期播客摘录自 a16z YouTube 频道上的一段视频，内容是 Gamma 的联合创始人兼首席执行官 Grant Lee 接受访谈，该公司是一款广受欢迎的 AI 演示应用。Lee 讨论了 Gamma 的创业历程，包括早期不成功的融资经历、在大公司竞争激烈的市场中脱颖而出的必要性，以及公司如何实现超过 1 亿用户和实现盈利。他还详细阐述了 Gamma 如何通过关注产品设计和用户体验来打造差异化产品，强调了 AI 时代“一键式”的简单性，并分享了 Gamma 的增长策略、营销理念以及未来向 B2B 和企业领域扩展的计划。

11-13

25:38

逃离“开发者服务开发者”泡沫：8 次失败血泪史揭示独立开发者赚钱盲区

本期播客摘录自 Reddit 上的 r/indiehackers 子版块，其中一个帖子和大量的评论讨论了独立开发者普遍面临的财务困境。核心观点是许多独立开发者（即独立创业者）陷入了一个“为彼此构建工具”的循环，例如制作登录页生成器或推文调度器，而不是解决传统“无聊”行业中客户愿意付费的实际问题，例如水管工或牙医的需求。评论者普遍认为，真正的金钱在于解决缺乏技术知识的商业人士的痛点，并且强调了进行市场验证、与实际客户沟通以及构建能带来直接财务效益的产品的重要性。整个讨论揭示了独立黑客社区中存在的“构建公共化”陷阱，即过于关注社交媒体曝光而非实际的盈利能力。

11-12

26:36

十分钟验证百万商机：AI 如何高效挖掘 Reddit 真实抱怨，提炼高密度创业洞察

本期播客摘录自一篇 Reddit 帖子，主要讨论了一位独立开发者如何利用 Claude 等大型语言模型 (LLM) 来快速验证其 SaaS (软件即服务) 创意。作者分享了他通过提示 AI 抓取 Reddit 和 Quora 等平台上的真实用户痛点和抱怨，从而发现了“冷邮件个性化问题”这一市场缺口，并成功推出了名为 Introwarm 的产品，目前实现了每月 2.3k 美元的经常性收入 (MRR)。随后的评论区包含了用户对这种 AI 驱动的市场研究方法的积极反馈、对所使用的详细提示词的分享，以及关于 AI 模型准确性和数据抓取局限性的辩论。总的来说，该内容提供了一种实用的、低成本的初创公司理念验证策略，强调从真实的用户投诉中寻找商业机会。

11-12

22:40

Omnilingual ASR：支持 1600 多种语言的开源多语言语音识别系统

本期播客概述了一项名为 Omnilingual ASR 的大型多语言自动语音识别（ASR）系统的开发及其功能，该系统旨在为全球 1,600 多种语言提供支持，其中包括 500 多种以前未得到任何 ASR 系统支持的语言。该系统采用了一种新型编码器-解码器架构，通过将自监督预训练扩展到 70 亿个参数，实现了对训练中未见语言的零样本泛化能力。通过结合现有公共资源和社区合作采集的新录音，该项目旨在解决资源匮乏语言的 ASR 覆盖问题，并以一系列开源模型的形式发布，以促进更具包容性和社区驱动的语音技术发展。此外，文章还详细介绍了数据收集、质量保证流程，并提供了针对 Whisper 和 USM 等现有模型的性能比较评估结果。

11-12

20:41

Rust 和 JavaScript：完美的组合与坑

本期播客摘录自 Jakob Meier 在“Rust Zürisee November 2024”上进行的演讲，主要围绕如何结合使用 Rust 和 JavaScript，特别是通过 WebAssembly (Wasm) 技术。Meier 介绍了他使用 Rust 进行核心逻辑处理和 JavaScript/Svelte 构建用户界面的应用程序架构。演讲的重点工具是 wasm-bindgen，它能自动生成必要的绑定代码，以简化 Rust 和 JavaScript 之间复杂的通信，特别是处理数据类型转换和对象生命周期管理。通过一个鼠标行为检测的演示项目，Meier 展示了在使用 wasm-bindgen 时可能遇到的常见陷阱和跨语言交互带来的独特调试挑战，例如处理所有权转移、指针归零错误、时间戳精度问题以及因 JavaScript 对象默认是引用的而导致的意外数据复制行为。

11-11

21:05

Claude Agent Skills 深度解析与应用

本期播客对 Anthropic 推出的 Claude Agent Skills 技术的全面解析，将其描述为一种模块化能力，旨在将 Claude 从通用助手转变为特定领域的专家。核心机制在于渐进式公开 (Progressive Disclosure) 架构，它通过三层动态加载知识（元数据、核心指令和资源脚本）来解决大型语言模型（LLM）面临的上下文窗口饱和问题，从而实现极高的 Token 效率。文章详细介绍了 Skill 的文件系统结构（例如包含核心指令 SKILL.md），强调其运行依赖于安全的代码执行环境以确保任务的确定性和可靠性。最后，来源探讨了 Skills 在软件开发中的变革性影响，包括标准化编码实践和实现复杂的代理式 (agentic) 自动化工作流程，并将其与 OpenAI 的功能调用和 LangChain 等其他 AI 框架进行了对比。

11-10

22:45

爱彼迎创始人布莱恩·切斯基的创业与人生感悟

本期播客摘录自一段 YouTube 视频，其中包含了爱彼迎（Airbnb）联合创始人兼首席执行官布莱恩·切斯基（Brian Chesky）与访谈者的对话。对话主要围绕切斯基的个人经历和职业生涯展开，从他作为艺术家的童年，到创办爱彼迎的初始阶段，再到公司在冠状病毒大流行期间面临的巨大危机和成功上市（IPO）。切斯基讨论了创业的孤独感、工作与个人生活的平衡，以及他如何学会优先考虑人际关系。他还分享了对公司文化和创造力在商业中重要性的见解，强调了创始人在塑造公司愿景和应对危机中所发挥的独特作用。

11-10

18:09

《大雾》

一首比较伤感的歌，送给刚来北京时的我，同时也希望你从此不迷茫。使用 Suno 生成。

11-07

03:56

View All on Castbox

Recommend Channels