Discover
今日深度AI
70 Episodes
Reverse
本期播客深扒Anthropic官方发布的这本《Claude Skill构建指南》,详尽介绍了如何通过构建技能(Skills)来定制和增强 Claude 的工作流程。技能被定义为包含指令、脚本和参考资料的结构化文件夹,旨在教导模型如何以一致的方式处理特定任务。手册核心涵盖了从规划设计到测试分发的全过程,特别强调了技能与 MCP(模型上下文协议) 集成的互补关系。通过遵循渐进式披露原则和特定的 YAML 元数据要求,开发者可以创建出高效、可移植且易于触发的自动化工作流。此外,文档还提供了多种实战模式与故障排除建议,旨在帮助用户在 15-30 分钟内构建出生产级别的智能体应用。
本期播客结合马斯克最新访谈以及除夕春晚宇树“武Bot”的全球大火,聚焦中美在人形机器人领域的激烈博弈,行业正迈向2026年量产拐点。中国凭借庞大的供应链和成本优势在“躯体”制造上占据统治地位,而美国则依靠特斯拉等企业的AI算法优势试图把控“大脑”高地。马斯克将Optimus视为经济的“无限金钱漏洞”,旨在通过“Optimus学院”的模拟训练解决数据短缺,并攻克灵巧手等核心硬件瓶颈。面对中国巨大的人口与制造红利,美国试图通过机器人的递归生产与技术创新,来实现工业产能的突围与战略独立
OpenClaw 是一款将大语言模型的认知力与本地计算环境深度结合的开源自主代理(Agentic AI)框架,旨在弥合人工智能“思考”与“执行”之间的鸿沟。该系统采用五层解耦架构与巷道队列机制,确保在处理财务、代码编辑及复杂工作流时具备企业级的稳定性和逻辑严密性。为了兼顾效率与数据安全,它支持在本地 AI PC 上进行混合部署,并引入了沙箱隔离、双人审计及模型上下文协议(MCP)等严苛的治理标准。在实际应用中,OpenClaw 已在市场情报监测、自动化比价博弈及软件工程等领域展现出显著的商业价值,能够大幅提升企业的生产力。通过将传统的人工流程转化为高效的数字员工,该框架正推动企业从单纯的 AI 辅助决策向全自动化的代理经济体系跨越。
本期播客来自《Lex Fridman Podcast》与机器学习专家 Sebastian Raschka 和 Nathan Lambert 对 2025 至 2026 年 人工智能发展态势 的深度对话。内容核心聚焦于 DeepSeek 等中国开源模型对全球竞争格局的冲击,并详细对比了 OpenAI、Anthropic 和 Google 等巨头在代码能力与推理模型上的差异。探讨了 比例定律 (Scaling Laws) 在预训练与推理端的持续演进,同时分析了 数据质量、合成数据以及版权争议 对未来技术路径的影响。文中还分享了关于 智能体、机器人学以及 AGI 路线图 的专业见解,强调了“从零开始构建”对技术理解的重要性。此外,访谈深入触及了 AI 时代下的 人类职业意义、教育变革以及社交媒体中的“内容废料”问题。最后,作者们对 开源精神与地缘政治 下的算力分配进行了展望,试图勾勒出 AI 深度融入人类社会后的复杂图景。
本期播客聚焦2026年初“代理能力”(Agent Skills)全面爆发的背景与深远影响,标志着AI从单纯的对话工具演变为能够自主执行任务的“数字员工”。由于MCP通用协议的统一和模块化技能包的出现,智能体实现了跨平台的标准化集成,能够精准完成财务、销售及法律等专业领域的工作。劳动力市场正在经历重构,人类的角色从执行者转变为战略编排者,重点转向情感智能与AI治理。为了应对自主系统带来的安全风险,行业已制定了OWASP与IEEE等伦理标准,并建立了完善的专家认证路径。最终,个人与企业的竞争力将取决于其操控和指挥多样化代理能力的水平,而非单纯的信息积累。
本期播客记录了英伟达(NVIDIA)首席执行官黄仁勋在CES展会上的主题演讲内容,核心展示了关于计算平台范式转移的深刻见解。他详细阐述了英伟达如何通过端到端的技术栈——从新一代Vera Rubin高性能芯片到Alpamo自动驾驶模型——将人工智能从数字屏幕推向物理AI(Physical AI)与机器人领域。通过对比传统计算与现代生成式AI的差异,他强调了合成数据生成、推理能力以及开源模型在加速全球工业和科研创新中的战略地位。此外,还通过与梅赛德斯-奔驰及Snowflake等行业巨头的对话,展示了AI在医疗、编程和智能制造等多元化场景中的落地应用与效能提升。
本期播客深入探讨这份《2026年AI10大趋势分析报告》,指出2026年将是人工智能从实验性探索向企业级工程化与商业化全面转型的关键拐点。预计到2030年,AI将驱动近20万亿美元的全球经济增长,当前企业的生成式AI投资回报率已达1:3.7,显示出巨大的价值潜力。报告深度解析了十大核心趋势:在技术形态上,AI正通过自主智能体(Agentic AI)多智能体协同从单纯的对话生成走向复杂的自主行动,并借助具身智能(Physical AI)混合量子AI正在优化算力效率,而预测性网络韧性和**可信溯源(C2PA)**机制则构成了应对新型威胁的数字免疫系统。在商业落地方面,企业正经历ROI商业化拐点,拒绝无效的“试点炼狱”,转而通过垂直小模型在成本与精度间取得平衡,追求实质性业务成果。报告建议企业CEO亲自挂帅,重构“云-边-端”混合架构,建立数据主权与伦理护栏,以在未来的智能经济竞争中占据主动权。
本期播客深度探讨谷歌、阿里巴巴与字节跳动在人工智能领域展开的“全栈式”生态主权竞争。谷歌凭借自研的TPU芯片与深度整合的硬件体系,试图巩固其在算力底层与移动终端的垂直化霸权。阿里巴巴则通过Qwen大模型的开源策略与云端协同,致力于打造普惠的AI操作系统以赋能商业生态。字节跳动采取了激进的“破坏性创新”路径,利用豆包手机和智能耳机等硬件入口重构用户交互,力求成为智能体时代的流量霸主。三家巨头从底层算力、算法模型到交互终端各展所长,共同勾勒出全球AI产业向全栈整合演进的竞争格局。
本期播客聚焦这份来自麦肯锡(McKinsey)的年末报告2025年人工智能(AI)在企业中的应用现状。 其调查数据显示,尽管绝大多数组织都在使用AI,甚至开始试验 AI智能体(Agentic AI),但大多数企业仍处于 初步扩展和试验阶段,尚未实现大规模的企业级价值。报告强调,高绩效组织(AI high performers)不仅追求效率,还将AI作为创新和业务转型的催化剂,并且在重新设计工作流程、高级领导层支持以及风险缓解方面做得更好。 此外,报告还讨论了AI对员工人数变化的预期,以及企业在应用AI时面临的主要风险,如不准确性和监管合规问题。
本期播客基于英伟达首席执行官黄仁勋在“战略与国际研究中心”的一次炉边谈话的访谈实录,他与主持人就人工智能(AI)的未来、美国的技术领导地位以及与中国的竞争进行了深入的讨论。黄仁勋将AI技术堆栈比作一个五层蛋糕,包括能源、芯片、基础设施、模型和应用,并认为能源问题是美国在AI竞赛中保持领先地位的一个严重制约因素。他还强调了美国需要再工业化以及技术产业对于国家安全的至关重要性,同时对中国的AI生态系统和其在开放源代码及应用扩散方面的优势表达了尊重与担忧。黄仁勋最后对AI的积极前景表示了极度的乐观,认为它将是人类历史上最具变革性的工业革命之一。
本期播客基于 OpenRouter 与 a16z 合作发布的一项实证研究,它分析了截至 2025 年底 OpenRouter 平台收集的 超过 100 万亿令牌 的真实 LLM 交互数据。研究的核心发现是行业正在发生结构性转变,即从单一文本生成转向涉及多步骤审议和工具调用的代理推理 作流程。在用途方面,尽管专有系统仍在编程等高价值领域占主导地位,但开源模型已经迅速扩张,且主要流量来自意外的创意角色扮演和技术性的编程辅助类别。该报告还观察到LLM的采用正变得日益全球化,亚洲市场份额显著增长,并通过灰姑娘“玻璃鞋”效应解释了那些在模型发布初期找到理想匹配的“基础用户群”具有极高的长期留存率。总体而言,数据表明LLM市场具有高度竞争和多元化的特征,用户在选择模型时,其推理质量和可靠性往往比边际成本更具决定性。
本期播客主要围绕 DeepSeek 发布的 V3.2 和 V3.2-Speciale 大型语言模型,这些模型已根据 MIT 许可证开源,旨在直接挑战如 GPT-5 和 Gemini 3 Pro 等专有系统。这种竞争力的核心在于其高效的架构,它结合了拥有 6710 亿总参数的稀疏专家混合 (MoE) 设计和创新的 DeepSeek Sparse Attention (DSA) 机制。DSA 能够显著提高长文本处理的效率,使其能够经济高效地处理长达 128K token 的上下文,该效率已在早期的 DeepSeek-V3.2-Exp 实验版本中得到验证。在不牺牲性能的前提下,这些模型在 数学和编程基准测试等专业技术领域取得了与领先闭源模型相当或更高的成绩。得益于这些技术突破,DeepSeek 提供了比主要竞争对手低 10 至 25 倍的 API 定价,从而极大地扰乱了前沿 AI 服务的市场经济结构。开发者可以选择兼顾成本的 V3.2 标准版或针对极致推理任务而优化的 V3.2-Speciale 变体。
本期播客作为《智能体AI全栈课程》系列第七讲,详细介绍了构建一个名为“数据库智能体”的实战项目,其核心功能是将用户的自然语言提问自动转换为可执行的 SQL 查询语句。项目流程首先要求设置隔离的 Conda 环境并安全存储 Gemini API 密钥,随后创建并初始化一个轻量级的 SQLite 数据库。成功的关键在于提示工程,即提供一个极其精确的 AI 提示,严格指导 Gemini-1.5 Pro 模型只返回原始的 SQL 代码。用户界面和核心逻辑通过 Streamlit 构建,包含两个主要函数:一个负责从用户输入生成 SQL,另一个负责将生成的查询应用于数据库并检索结果。文档最后通过运行测试,展示了智能体如何成功处理简单的选择查询和复杂的聚合函数,体现了大型语言模型的理解能力与 Python 执行能力的无缝结合。
本期播客概述了全球顶级期刊对人工智能(AI)前景的“大分裂”叙事,时间点聚焦于2025年11月。节目将主流观点划分为三大阵营:以《经济学人》为代表的金融看空派担忧巨大的基建投入与微薄的营收不成比例,预警市场修正;以《麻省理工科技评论》为代表的技术乐观派则相信Agentic AI(智能体)和小模型的兴起将很快带来真正的生产力爆发;而《哈佛商业评论》等实务派则反映了企业高管们在AI投资回报率(ROI)和组织变革上面临的集体焦虑。此外,报告还分别引用了《连线》对AI生成内容泛滥和“模型崩溃”的关注,以及《财富》/《福布斯》对“赢家通吃”和基础设施层获利的报道,最终指出AI领域正处于“资本支出”与“技术成熟度”错位的生死竞速阶段。
本期播客聚焦讨论人工智能 (AI) 计算基础设施转移到外太空的新兴趋势及其背后的驱动力。由于地球上面临能源危机、电网不稳定和冷却效率瓶颈等严峻挑战,科技巨头和航天公司,包括 Google (Project Suncatcher)、Nvidia、Blue Origin 和 SpaceX,正在积极探索在轨道上建立数据中心,利用持续的太阳能和太空的辐射冷却潜力。虽然目前太空数据中心的成本过高且面临辐射、低延迟互连等技术障碍,但专家预测随着发射成本的下降,其经济可行性在未来十年内可能超越地面设施。此外,各国(如中国)正在部署其AI 卫星星座(如“星算计划”),旨在实现太空边缘计算,同时国际社会也开始讨论空间数据的管理、安全和伦理问题。
本期播客关注Google刚刚发布的Gemini 3 Pro模型,核心主题围绕着利用简单的提示或“一键式”操作,快速从想法到实际应用的构建过程,这在很大程度上要归功于模型卓越的美学设计能力、多模态理解(如视频分析和 3D 世界生成)以及上下文推理能力。展示了一系列令人印象深刻的成果,包括可玩的 3D 游戏(如钓鱼和飞行模拟)、交互式网页设计、复杂的舞蹈编排应用,以及将平面图和研究论文转化为动态视觉体验的教育工具,同时还介绍了 Anti-Gravity 平台,旨在为更专业的开发人员提供多智能体协作开发的环境。
本期播客详细介绍了丝绸之路的历史、运作方式及其对全球文化的深远影响。节目首先阐明丝绸之路是一个广阔的贸易网络,连接了古代中国与罗马,并描述了穿越塔克拉玛干沙漠和帕米尔高原等险恶地形的危险旅程。追溯了丝绸之路的起源,将其与公元前2世纪汉代张骞的出使联系起来,并解释了丝绸如何成为驱动贸易的主要商品,造成了罗马帝国的贸易逆差。强调丝绸之路的真正意义在于文化交流,它促成了佛教、伊斯兰教和基督教的传播,以及造纸术、火药和数学概念等技术和思想的西传。最后,讨论了波斯帝国和印度在网络中的重要作用,马可·波罗的旅行以及海上贸易路线兴起如何导致这条古代高速公路的衰落,但其遗产至今仍在塑造着我们的世界。
本期播客对两大人工智能巨头旗舰产品——OpenAI的GPT-5.1和Google的Gemini 2.5 Pro(以及泄露的Gemini 3.0路线图)——的深入对比分析。核心结论指出,AI市场已分化为两大战略路径:GPT-5.1专注于精细化推理、编码能力和用户体验的精细控制(如自适应推理和个性化预设),而Gemini 2.5 Pro/3.0则侧重于超大规模的数据处理、原生多模态能力(包括音频和视频)以及巨大的上下文窗口。尽管GPT-5.1在传统基准测试中保持推理领先,但Gemini通过其TPU硬件优势和强大的智能体系统(如“深度研究”)弥补了基础模型的差距。最终,节目认为不再存在单一的“最佳”模型,企业应根据自身对复杂推理或海量数据摄取的需求来选择平台。
本期播客深入剖析2025年世界互联网大会乌镇峰会,强调人工智能(AI)已从单纯的“工具”转变为基础设施,正全面从数字世界走向物理现实。节目的核心观点围绕三大趋势展开:首先,AI正实现全域赋能和具身智能,从点状应用扩展到实体经济的全面重构;其次,面对算力瓶颈,产业界正通过大规模集群、存算一体芯片革新以及开源优化等三条路径寻求突破;最后,随着AI能力增强,治理和安全问题被提升至前所未有的高度,特别是将AI安全视为必须嵌入设计、用以保护创新的主动治理。文本总结,在超过五亿中国用户的推动下,AI技术的发展速度,以及伴随而来的乌托邦式机遇和社会挑战,都将加速到来。
本期播客作为《智能体AI全栈课程》第六讲,聚焦智能体 AI 时代核心人才的实战驱动路线图。路线图第一步强调生成式 AI 基础,要求熟悉主流大型语言模型(LLM)并关注多智能体系统。第二步强调深入掌握 Python 及其核心科学计算库,如 NumPy、Pandas 和深度学习框架 TensorFlow/PyTorch。接下来的第三步是探索和掌握尖端的智能体框架,如 Crew AI、AutoGPT 和 Devin AI,以实现自主工作流。第四步则侧重于 LangChain 和 RAG(检索增强生成)的实战应用,强调通过项目实践连接外部数据。最后,路线图建议通过 GitHub 社区参与、实习和持续阅读最新 AI 研究论文来保持知识前沿并积累经验。























