DiscoverAI可可AI生活
AI可可AI生活
Claim Ownership

AI可可AI生活

Author: fly51fly

Subscribed: 39Played: 536
Share

Description

来自 @爱可可-爱生活 的第一手AI快报,用最简单易懂的语言,带你直击最前沿的人工智能科研动态。无论你是科技小白,还是行业达人,这里都有你想知道的AI故事和未来趋势。跟着我们,轻松解锁人工智能的无限可能!
#人工智能 #科技前沿
790 Episodes
Reverse
本期节目,我们将一起潜入AI的“思想内核”,看看科学家们是如何像物理学家一样,为AI搭建“比萨斜塔”来找到最关键的架构“补丁”;如何为AI的思考过程立下“定律”,让它不再“乱使劲”;我们还会聊聊,怎样将我们模糊的“感觉”变成一把精准的AI“标尺”;如何找到AI训练中那条介于“跳跃”和“龟行”之间的最优路径;以及如何打造一个既能学得像人类专家,又能开得稳的AI“老司机”团队。准备好了吗?让我们一起出发!00:00:37 AI研究的“比萨斜塔”:我们看清模型强弱的方式可能错了00:08:29 给AI立规矩:聪明的大脑是如何炼成的?00:14:59 AI训练的“最优解”:在跳跃和龟行之间找到第三条路00:20:32 你的“感觉”,如何变成AI的“标尺”?00:25:56 如何让AI司机,既学得像,又开得稳?本期介绍的几篇论文:[CL] Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers[FAIR at Meta]https://arxiv.org/abs/2512.17351---[CL] When Reasoning Meets Its Laws[University of Illinois Urbana-Champaign & University of Pennsylvania]https://arxiv.org/abs/2512.17901---[LG] Smoothing DiLoCo with Primal Averaging for Faster Training of LLMs[Meta Superintelligence Lab]https://arxiv.org/abs/2512.17131---[CL] AutoMetrics: Approximate Human Judgements with Automatically Generated Evaluators[Stanford University & American Express]https://arxiv.org/abs/2512.17267---[LG] Distributionally Robust Imitation Learning: Layered Control Architecture for Certifiable Autonomy[University of Illinois Urbana-Champaign & University of Pennsylvania]https://arxiv.org/abs/2512.17899
你有没有想过,AI的进化不只靠“大力出奇迹”?今天我们要聊点更聪明的:比如,给3D世界换上一种全新的“智能积木”;不造新车,而是给最强的大模型巧妙“换上新引擎”;甚至通过分离“骨架”与“灵魂”,让数字世界变得前所未有的高效。本期节目,我们将通过几篇最新论文,揭示那些重塑AI底层逻辑的优雅巧思,看看AI是如何在看不见的地方,悄悄完成自我进化的。00:00:33 一套“智能积木”如何解锁3D世界?00:06:23 AI大模型的新玩法:不造新车,只换发动机00:14:06 AI提速的关键:不只靠“算得快”00:22:05 3D世界的新法则:分离骨架与灵魂00:27:00 AI的“记忆”难题,决定了它离我们还有多远本期介绍的几篇论文:[CV] Native and Compact Structured Latents for 3D Generation  [Tsinghua University & Microsoft Research]  https://arxiv.org/abs/2512.14692 ---[CL] Bolmo: Byteifying the Next Generation of Language Models  [Allen Institute for AI & University of Washington]  https://arxiv.org/abs/2512.15586 ---[LG] SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations  [Princeton University & UC Berkeley]  https://arxiv.org/abs/2512.14080 ---[CV] Nexels: Neurally-Textured Surfels for Real-Time Novel View Synthesis with Sparse Geometries  [University of Toronto & Simon Frasier University]  https://arxiv.org/abs/2512.13796 ---[CL] Memory in the Age of AI Agents  [National University of Singapore & Renmin University of China]  https://arxiv.org/abs/2512.13564 
今天,我们要从一个笨拙的机器人聊起,看科学家如何赋予它有趣的灵魂,再深入探讨如何让聪明的AI学会“守规矩”,而不是总给我们添乱。接着,我们会发现,让AI修图不再“P了个寂寞”的秘诀,竟然是让它学会像设计师一样思考;而让AI“看懂”世界的终极答案,可能和教它“说话”一样简单。最后,我们将把视角拉到未来,看看当无数AI组成一个“数字社会”时,我们该如何治理它,而不是空等一个AI大神的降临。00:00:36 笨拙的机器人,如何拥有有趣的灵魂?00:05:28 AI那么聪明,为什么还那么“笨”?00:12:26 你的AI修图,为什么总是“P了个寂寞”?00:17:39 AI视觉的“返璞归真”:从做拼图到学说话00:22:39 AI大神不会降临,但AI社会正在形成本期介绍的几篇论文:[RO] Olaf: Bringing an Animated Character to Life in the Physical World  [Disney Research Imagineering]  https://arxiv.org/abs/2512.16705 ---[LG] CAPE: Capability Achievement via Policy Execution  [Superficial Labs]  https://arxiv.org/abs/2512.14761 ---[CV] Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition  [HKUST(GZ) & Alibaba]  https://arxiv.org/abs/2512.15603 ---[CV] Next-Embedding Prediction Makes Strong Vision Learners  [University of Michigan & Princeton University]  https://arxiv.org/abs/2512.16922 ---[AI] Distributional AGI Safety  [Google DeepMind]  https://arxiv.org/abs/2512.16856 
我们总觉得AI越大越好,但如果一个AI能像大公司一样知识渊博,却只用一个小团队的成本来思考,是不是更酷?本期节目,我们就从几篇最新论文出发,看看AI如何学会当一个聪明的“调度员”,如何像学徒一样承认“不确定性”来学得更快,甚至如何通过“复盘”和“划重点”来真正实现“吃一堑、长一智”。准备好,一起探索AI更聪明、更高效的进化之路吧!00:00:33 AI大模型的小秘密:如何用一个“小团队”,干翻一个“大公司”?00:05:55 聪明的“笨功夫”:如何让机器人学得更快?00:12:08 让AI学会“吃一堑、长一智”,需要几步?00:17:27 AI的“七秒记忆”难题,如何用“划重点”来解决?00:23:06 机器人学徒:如何从“笨拙模仿”到“青出于蓝”?本文介绍的几篇论文:[CL] Sigma-Moe-Tiny Technical Report[Microsoft Research]https://arxiv.org/abs/2512.16248---[LG] Posterior Behavioral Cloning: Pretraining BC Policies for Efficient RL Finetuning[UC Berkeley & Stanford]https://arxiv.org/abs/2512.16911---[LG] Meta-RL Induces Exploration in Language Agents[EPFL & Idiap Research Institute]https://arxiv.org/abs/2512.16848---[LG] Kascade: A Practical Sparse Attention Method for Long-Context LLM Inference[Microsoft Research India]https://arxiv.org/abs/2512.16391---[RO] ReinforceGen: Hybrid Skill Policies with Automated Data Generation and Reinforcement Learning[University of Toronto & Georgia Institute of Technology & NVIDIA Research]https://arxiv.org/abs/2512.16861
本期节目,我们将一起潜入AI能力的最前沿,看看那些看似无所不能的大模型,究竟藏着哪些不为人知的秘密。我们会从一篇最新论文出发,揭示为何AI“学霸”其实是个严重的“偏科生”,又是如何靠“运气”搞科研的。接着,我们将探讨一种绝妙的改造思路,看看如何为只会“说”的AI装上“好耳朵”,让它更会理解。我们还会认识一位跨界的AI“野蛮人”,看它如何用18世纪的政治学知识,解决今天的计算机难题。最后,我们将解开两个关于AI核心能力的谜题:一个是看似“短视”的AI如何做到深谋远虑,另一个则是AI画画如何从“慢工出细活”进化到革命性的“一步到位”。00:00:47 AI:从“学霸”到“科学家”,还有多远?00:07:10 AI进化论:为什么聪明的模型需要一个好“耳朵”?00:12:20 你的下一个科研搭子,可能是个AI00:17:43 只会“接龙”的大模型,怎么就学会了深谋远虑?00:22:33 从“慢工出细活”到“一步到位”,AI画画的效率革命本期介绍的几篇论文:[AI] Evaluating Large Language Models in Scientific Discovery[Deep Principle & Cornell University & The Ohio State University]https://arxiv.org/abs/2512.15567---[CL] T5Gemma 2: Seeing, Reading, and Understanding Longer[Google DeepMind]https://arxiv.org/abs/2512.14856---[AI] Let the Barbarians In: How AI Can Accelerate Systems Performance Research[UC Berkeley]https://arxiv.org/abs/2512.14806---[LG] Autoregressive Language Models are Secretly Energy-Based Models: Insights into the Lookahead Capabilities of Next-Token Prediction[Google DeepMind]https://arxiv.org/abs/2512.15605---[LG] SoFlow: Solution Flow Models for One-Step Generative Modeling[Princeton University]https://arxiv.org/abs/2512.15657
你有没有想过,AI在“读书”时也会注意力不集中,需要“临时抱佛脚”来校准焦点吗?或者,最顶尖的效率提升,竟然来自于一种叫“马其顿方阵”的精明“偷懒”?本期节目,我们将一口气解锁AI的几种新技能:看它如何从“逐字精雕”的苦工,变身为“成段挥毫”的艺术家;如何组建一个内部“专家委员会”,自己揪出数据里的“内奸”;以及,如何像外科手术一样,给自己来一场精准又高效的“减肥手术”。五篇最新论文,五种绝妙思路,让我们一起看看AI是如何学会更聪明地思考和工作的。00:00:42 AI“读书”也走神?一个让他临时抱佛脚的锦囊00:06:14 你的效率工具,是如何被“偷懒”的程序员设计出来的?00:12:25 AI“写稿”新姿势:从“逐字精雕”到“成段挥毫”00:19:15 高手过招:如何让AI自己揪出“内奸”?00:25:10 给大模型减肥,如何做到又快又好?本期介绍的几篇论文:[LG] Let's (not) just put things in Context: Test-Time Training for Long-Context LLMs  [Meta & Harvard University]  https://arxiv.org/abs/2512.13898 ---[LG] Sliding Window Recurrences for Sequence Models  [Université de Montréal & Stanford University]  https://arxiv.org/abs/2512.13921 ---[CL] Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed  [NVIDIA & Georgia Tech]  https://arxiv.org/abs/2512.14067 ---[AI] Adjudicator: Correcting Noisy Labels with a KG-Informed Council of LLM Agents  [Google]  https://arxiv.org/abs/2512.13704 ---[LG] OPTIMA: Optimal One-shot Pruning for LLMs via Quadratic Programming Reconstruction  [University of Toronto & Google DeepMind]  https://arxiv.org/abs/2512.13886 
今天我们要深入AI的内心世界,看看它是如何通过看视频学会“动手”,又是如何为自己规划出一条“学霸”成长路线的。我们还会探讨,当AI学会了像大厨一样进行严谨的专业推理后,它会不会也学会了“装傻”,向我们隐藏它的真实想法?更进一步,AI甚至开始自己定义什么是“好学生”,进化出了一套自我评分的超级学习法。准备好,我们马上出发,探索这些最新论文背后,关于AI心智的秘密。00:00:33 让机器人学会干活,原来缺的是这个00:05:55 一个AI的成长启示:如何成为一个高手?00:11:53 AI学会了“装傻”:我们还能相信它的内心吗?00:16:30 AI当大厨:从化学方程式到米其林级实验手册00:24:13 AI的自我进化:如何让它自己找到“好学生”的评分标准?本期介绍的几篇论文:[RO] World Models Can Leverage Human Videos for Dexterous Manipulation  [FAIR at Meta]  https://arxiv.org/abs/2512.13644 ---[CL] Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models  [NVIDIA]  https://arxiv.org/abs/2512.13607 ---[LG] Neural Chameleons: Language Models Can Learn to Hide Their Thoughts from Unseen Activation Monitors  [MATS & Stanford University]  https://arxiv.org/abs/2512.11949 ---[LG] A Scientific Reasoning Model for Organic Synthesis Procedure Generation  [Microsoft Research AI for Science]  https://arxiv.org/abs/2512.13668 ---[AI] Differentiable Evolutionary Reinforcement Learning  [University of Waterloo & The University of Hong Kong & The Chinese University of Hong Kong, Shenzhen]  https://arxiv.org/abs/2512.13399 
本期我们将深入解读四篇最新论文:看AI绘画如何从“动口”进化到“动手”画草图,机器人怎样靠“对称性”智慧瞬间开窍,黑客如何用“双面间谍”策略同时骗过安全防线,以及大模型如何利用“上下文”桥梁做到记忆上的“喜新不厌旧”。让我们一起揭开这些技术背后,从单纯算力堆砌向精巧认知协作进化的底层逻辑。00:00:31 AI绘画新思路:从“动口”到“动手”00:05:01 让机器人“开窍”的秘密:不是更努力,而是更聪明00:11:11 AI的“皇帝”与“禁卫军”:如何同时骗过他俩?00:16:09 你的大脑是怎么做到“喜新不厌旧”的?本期介绍的几篇论文:[CV] Exploring MLLM-Diffusion Information Transfer with MetaCanvas  [Meta Superintelligence Labs]  https://arxiv.org/abs/2512.11464 ---[LG] Symmetry-Aware Steering of Equivariant Diffusion Policies: Benefits and Limits  [Yonsei University]  https://arxiv.org/abs/2512.11345 ---[AI] Super Suffixes: Bypassing Text Generation Alignment and Guard Models Simultaneously  [MITRE & Worcester Polytechnic Institute]  https://arxiv.org/abs/2512.11783 ---[AI] Bridging Streaming Continual Learning via In-Context Large Tabular Models  [Polytechnic of Porto & University of Porto & Mohamed bin Zayed University of Artificial Intelligence]  https://arxiv.org/abs/2512.11668 
你有没有想过,我们该如何为机器人设计一个既能测出真本事又绝对安全的“想象考场”?或者,当AI也开始组团队时,我们如何避免“三个和尚没水喝”的窘境,并让它们自我进化出并行思考的“多核大脑”?一个机器人怎样才能不只学习“学霸笔记”,还能从自己“脑补”的错误中成长?而AI超强记忆力的秘诀,又是否藏在被我们一直丢弃的“另一半”信息里?本期节目,我们将一口气深入这五篇最新论文,探索AI能力边界的全新可能。00:00:37 机器人考场:从现实世界搬到AI的想象里 00:05:56 人多,力量一定大吗?AI团队协作的“科学”反思00:11:58 AI思维进化:从单线程到多核大脑00:17:38 让机器人“脑补”未来,光靠学霸笔记还不够00:23:17 AI的记忆秘诀:那个被丢掉的“另一半”本期介绍的几篇论文:[RO] Evaluating Gemini Robotics Policies in a Veo World Simulator[Google DeepMind]https://arxiv.org/abs/2512.10675---[AI] Towards a Science of Scaling Agent Systems[Google Research & MIT]https://arxiv.org/abs/2512.08296---[CL] Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning[Beijing Institute for General Artificial Intelligence (BIGAI)]https://arxiv.org/abs/2512.07461---[LG] Closing the Train-Test Gap in World Models for Gradient-Based Planning[Columbia University]https://arxiv.org/abs/2512.09929---[CL] Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs[Fudan University]https://arxiv.org/abs/2512.07525
你想过没有,如果让AI当一名黑客,它能在真实对决中排第几?我们又该如何把它从一个聪明的“万事通”,教成一个会举一反三的“思考者”?当AI化身创意工具时,它又如何能让照片里的世界变得能摸能碰,甚至让你一键“偷走”视频里雄狮的奔跑姿态?本期,几篇最新论文将为我们揭晓这些问题的答案,带你看见AI嵌入现实的惊人路径。00:00:32 AI黑客登场:一场真实世界的人机攻防对决00:06:20 为虚拟世界,造一把能摸到的“梯子”00:11:01 AI越来越聪明,到底是怎么“教”出来的?00:16:58 AI 智能助理的「使用说明书」,有人已经替你写好了00:20:41 一键“附体”:让你的3D模型活起来的新魔法本期介绍的几篇论文:[AI] Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing[Stanford University]https://arxiv.org/abs/2512.09882---[CV] MeshSplatting: Differentiable Rendering with Opaque Meshes[University of Liege & University of Maryland]https://arxiv.org/abs/2512.06818---[CL] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models[CMU]https://arxiv.org/abs/2512.07783---[LG] The Adoption and Usage of AI Agents: Early Evidence from Perplexity[Harvard University]https://arxiv.org/abs/2512.07828---[CV] MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos[Huawei Technologies Co., Ltd. & Huawei Central Media Technology Institute]https://arxiv.org/abs/2512.10881
AI的“内心世界”到底是什么样的?本期我们将一起打开AI的“黑箱”,看看它脑中的概念是不是像一张清晰的地图;它又是如何像玩乐高一样,用旧知识拼出新世界的?当AI学画画时,我们该给它请一位“博学”还是“懂行”的老师?又该怎样为它修一条又快又好的创作高速路?最后,我们还将探讨,如何让机器通过“抬杠”的方式,反过来帮我们理清自己的主观想法。00:00:35 驯服“黑箱”:AI世界的一条极简法则00:05:30 拼凑“旧知识”,创造“新世界”00:10:22 AI绘画的“老师”,聪明和懂行哪个更重要?00:15:48 造物者的新工具:AI画画怎样才能又快又好?00:21:10 如何让机器学会你的“个人口味”?本期介绍的几篇论文:[LG] Beyond the Black Box: Identifiable Interpretation and Control in Generative Models via Causal Minimality[CMU]https://arxiv.org/abs/2512.10720---[LG] Learning by Analogy: A Causal Framework for Composition Generalization[CMU & Amazon]https://arxiv.org/abs/2512.10669---[CV] What matters for Representation Alignment: Global Information or Spatial Structure?[Adobe Research & ANU]https://arxiv.org/abs/2512.10794---[LG] Bidirectional Normalizing Flow: From Data to Noise and Back[MIT]https://arxiv.org/abs/2512.10953---[CV] Agile Deliberation: Concept Deliberation for Subjective Visual Classification[Google Research]https://arxiv.org/abs/2512.10821
你有没有想过,我们不仅能使用AI,还能看透它的“内心世界”吗?本期,我们将跟随几篇最新论文,扮演一次AI的建筑师、心理医生和侦探,看看如何重塑一个更省钱的推荐系统,如何看穿AI从无害信息中“悟”出的危险想法,以及如何用一把“手术刀”解剖并教会它举一反三。让我们一起出发!00:00:28 推荐系统的大难题:如何让它更聪明,还更省钱?00:05:59 你教AI画苹果,它却学会了当海盗00:14:26 我们终于有了一把解剖AI的“手术刀”00:20:44 AI侦探:你的模型到底跟谁学的?00:27:06 教AI举一反三:为什么聪明的模型,一到考场就蒙圈?本期介绍的几篇论文:[IR] Meta Lattice: Model Space Redesign for Cost-Effective Industry-Scale Ads Recommendations  [Meta AI]  https://arxiv.org/abs/2512.09200 ---[CL] Weird Generalization and Inductive Backdoors: New Ways to Corrupt LLMs  [Truthful AI]  https://arxiv.org/abs/2512.09742 ---[LG] Provably Learning from Modern Language Models via Low Logit Rank  [Microsoft Research & UC Berkeley & MIT]  https://arxiv.org/abs/2512.09892 ---[LG] Natural Geometry of Robust Data Attribution: From Convex Models to Deep Networks  [The University of Texas at Austin]  https://arxiv.org/abs/2512.09103 ---[LG] Closing the Train-Test Gap in World Models for Gradient-Based Planning  [Columbia University]  https://arxiv.org/abs/2512.09929 
我们总以为AI越强,就意味着模型越大、思考越久,但今天我们要聊点不一样的。本期几篇最新论文告诉我们,AI有时也会“近视”,只看眼前;但它也能学会“团队作战”,把一个难题拆开并行处理。我们还会看到,AI画画不必等到最后一刻才知好坏,企业抓坏人也不再需要昂贵的“博士专家”。最后,我们会通过一个巧妙的实验,揭示学习的本质——有时,搭好“脚手架”比闷头苦练更重要。00:00:35 大模型其实是“近视眼”?00:05:36 从单核思考到团队作战:AI的效率革命00:11:34 AI绘画的“中场战事”:如何省下一半力气,画出更好的图?00:16:31 给你的网络安个“最强大脑”,但不用请博士00:22:17 学习的“脚手架”:为什么“学会”比“做会”需要更多信息?本期介绍的几篇论文:[CL] Short-Context Dominance: How Much Local Context Natural Language Actually Needs?  [University of British Columbia & Google DeepMind]  https://arxiv.org/abs/2512.08082 ---[LG] ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models  [Meta Superintelligence Labs (MSL)]  https://arxiv.org/abs/2512.07843 ---[CV] Beyond the Noise: Aligning Prompts with Latent Representations in Diffusion Models  [NOVA University of Lisbon & Google Research]  https://arxiv.org/abs/2512.08505 ---[AI] Democratizing ML for Enterprise Security: A Self-Sustained Attack Detection Framework  [Google LLC]  https://arxiv.org/abs/2512.08802 ---[LG] Using reinforcement learning to probe the role of feedback in skill acquisition  [ETH Zürich]  https://arxiv.org/abs/2512.08463 
本期节目,我们将一起探索AI智能的几种迷人形态。一个从没上过网的AI,如何靠“顿悟”来解题?一个摇摆不定的AI,如何被调教得“心中有谱”?一个笨学生,又是如何通过一套“教育学”秘籍,成为推理高手的?最后,我们还会聊聊如何给AI团队“动手”纠错,并用一把尺子精确量出它的“记忆深度”。准备好了吗?让我们一起出发!00:00:31 造一个聪明的AI,需要喂它整个互联网吗?00:07:16 告别左右摇摆:如何让机器学会有个“准星”?00:12:27 如何把一个“笨学生”调教成解题高手?00:19:59 别再当事后诸葛亮,试试“动手”来纠错00:25:43 你的AI有多健忘?我们终于有了一把尺子本期介绍的几篇论文:[LG] ARC-AGI Without Pretraining[CMU]https://arxiv.org/abs/2512.06104---[LG] Average-reward reinforcement learning in semi-Markov decision processes via relative value iteration[University of Alberta]https://arxiv.org/abs/2512.06218---[CL] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models[CMU]https://arxiv.org/abs/2512.07783---[AI] DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems[Microsoft & Chinese Academy of Sciences]https://arxiv.org/abs/2512.06749---[LG] Quantifying Memory Use in Reinforcement Learning with Temporal Range[MIT]https://arxiv.org/abs/2512.06204
本期节目,我们将一起挑战几个关于AI的“想当然”:它真的无所不能,又或者只是个模式复读机?我们会发现,AI能反过来给人类科学论文“挑错”,但它自己预测的数据也可能布满陷阱。更进一步,我们将从逻辑的根源探讨机器创新的“天花板”,并揭示让AI实现“协调”与“自我进化”的巧妙新思路。00:00:28 AI当监工:我们读的顶会论文,到底有多少bug?00:05:55 你的AI为什么总“犯傻”?缺的不是智商,是“协调”00:12:48 给AI的狂热泼一盆冷水:为什么机器无法真正创新?00:19:44 AI预测的数据,是馅饼还是陷阱?00:30:00 AI的自我修养:没有人类老师,它如何变得更聪明?本期介绍的几篇论文:[AI] To Err Is Human: Systematic Quantification of Errors in Published AI Papers via LLM Analysis[Together AI & NEC Labs America]https://arxiv.org/abs/2512.05925---[AI] The Missing Layer of AGI: From Pattern Alchemy to Coordination Physics[Stanford University]https://arxiv.org/abs/2512.05765---[AI] On the Computability of Artificial General Intelligence[N/A]https://arxiv.org/abs/2512.05212---[LG] Do We Really Even Need Data? A Modern Look at Drawing Inference with Predicted Data[Fred Hutchinson Cancer Center & University of Washington]https://arxiv.org/abs/2512.05456---[CV] Self-Improving VLM Judges Without Human Annotations[FAIR at Meta]https://arxiv.org/abs/2512.05145
想让AI更聪明,为什么它有时反而会“学傻”?本期节目,我们将一起揭开AI训练中“差不多”哲学的代价,并探索如何为所有大模型打造一副省钱又省力的“万能骨架”。我们还会看到,有时只需给机器人加一点“噪声”,或者校准一下它看世界的“眼镜”,就能让它从新手秒变老司机。最后,我们将见证一个奇迹:如何让机器人看懂我们天马行空的“梦境”,将想象力直接翻译成物理世界的行动。00:00:35 驯服AI这匹野马,问题出在了“差不多”上00:07:43 给机器人加点“噪声”,它就变聪明了?这事没那么简单00:14:08 怎么让机器人听懂你的想象力?00:19:18 AI大模型们的“万能骨架”:省钱省力的秘密00:23:03 机器人换个角度就犯傻?问题可能出在你没想到的地方本期介绍的几篇论文:[CL] Stabilizing Reinforcement Learning with LLMs: Formulation and Practices[Qwen Team, Alibaba Inc.]https://arxiv.org/abs/2512.01374---[RO] Much Ado About Noising: Dispelling the Myths of Generative Robotic Control[CMU]https://arxiv.org/abs/2512.01809---[RO] From Generated Human Videos to Physically Plausible Robot Trajectories[UC Berkeley & Johannes Kepler University]https://arxiv.org/abs/2512.05094---[LG] The Universal Weight Subspace Hypothesis[Johns Hopkins University]https://arxiv.org/abs/2512.05117---[RO] VLA Models Are More Generalizable Than You Think: Revisiting Physical and Spatial Modeling[Sun Yat-sen University]https://arxiv.org/abs/2512.02902
今天我们不只关心AI有多强,而是要探索一些更深刻的问题。我们会看到,最适合汽车的AI,恰恰不是那个最强的“云端大脑”;我们会拿到一个“测谎仪”,去分辨AI何时在“一本正经地胡说八道”。接着,我们会用一张最残酷的考卷,揭示AI在“知识搬运”和“智慧创造”之间的巨大鸿沟。更进一步,我们将探讨一个令人深思的可能:我们感受到的社会撕裂,竟可能是一种被AI精心设计的产物。最后,我们再看看如何请一位“上帝视角”的教练,训练出能主动探索世界的机器人。00:00:42 造车启示录:为什么最强的AI,不是最好的AI?00:06:14 AI的“一本正经胡说八道”,我们终于有办法治它了00:11:30 AI:一个既能干又“无能”的实习生00:16:44 撕裂的社会,可能是一种“精心设计”00:23:10 机器人学习新范式:带个“上帝视角”的教练本期介绍的几篇论文:[CL] AutoNeural: Co-Designing Vision-Language Models for NPU Inference[Nexa AI & Geely Auto]https://arxiv.org/abs/2512.02924---[LG] Detecting AI Hallucinations in Finance: An Information-Theoretic Method Cuts Hallucination Rate by 92%[The Catholic University of America]https://arxiv.org/abs/2512.03107---[CL] CryptoBench: A Dynamic Benchmark for Expert-Level Evaluation of LLM Agents in Cryptocurrency[Princeton University]https://arxiv.org/abs/2512.00417---[AI] Polarization by Design: How Elites Could Shape Mass Preferences as AI Reduces Persuasion Costs[University of Chicago]https://arxiv.org/abs/2512.04047---[RO] Real-World Reinforcement Learning of Active Perception Behaviors[University of Pennsylvania]https://arxiv.org/abs/2512.01188
我们总希望AI不只是个聪明的工具,更像个能沟通、能反思、甚至能自我进化的伙伴。本期节目,我们就从几篇最新论文出发,看看科学家们是如何脑洞大开地教AI“忏悔”错误、在虚拟世界里“动手”实践、像团队一样“合成”智慧,甚至上演一出匪夷所思的“灵魂互换”大戏。准备好了吗?让我们一起探索,如何把AI从一个“黑箱”变成一个我们可以理解和塑造的智能体。00:00:33 让AI“忏悔”,我们能得到什么?00:05:49 当AI不再只是个“书呆子”00:11:06 AI自己不行的事,怎么让一群AI办成?00:16:56 AI的“复盘”教练:如何用人话把它教聪明00:22:11 AI变形记:为什么你训练的和最后用的,不必是同一个模型?本期介绍的几篇论文:[CL] Training LLMs for Honesty via Confessions[OpenAI]https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf---[AI] SIMA 2: A Generalist Embodied Agent for Virtual Worlds[Google DeepMind]https://arxiv.org/abs/2512.04797---[AI] Algorithmic Thinking Theory[Google & NYU]https://arxiv.org/abs/2512.04923---[LG] Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space[UC Berkeley & ByteDance Seed]https://arxiv.org/abs/2512.04601---[LG] Network of Theseus (like the ship)[MIT CSAIL & Johns Hopkins University]https://arxiv.org/abs/2512.04198
你有没有想过,AI不仅在学习知识,也在学习如何学习、如何忘记,甚至如何拥有自己独特的“笔迹”?本期节目,我们将看到一个“阅表无数”的AI如何秒解难题,并揭开神经网络训练中那如同“强迫症”般的神秘秩序是如何形成的。我们还会探索一个反常识的发现:为什么让AI学到“顿悟”,反而能让它忘得更快更准?以及AI如何学会“断舍离”,主动过滤记忆来提升自己。最后,我们聊聊如何给开源模型刻上无法抹去的“隐形签名”。准备好了吗?让我们一起潜入AI思想的深水区。00:00:42 你的表格数据,需要一个“见过世面”的AI00:05:56 AI训练中的神秘秩序:一把解开“神经网络坍塌”之谜的钥匙00:11:18 想让机器忘得快,先得让它学到“呆”?00:16:17 AI的“断舍离”:为什么聪明人要学会忘记?00:21:49 AI的“隐形墨水”:如何给开源模型刻上无法抹去的签名?本期介绍的几篇论文:[LG] Accurate predictions on small data with a tabular foundation model[University of Freiburg]https://www.nature.com/articles/s41586-024-08328-6.pdf---[LG] Diagonalizing the Softmax: Hadamard Initialization for Tractable Cross-Entropy Dynamics[University of Oxford & University of British Columbia]https://arxiv.org/abs/2512.04006---[LG] Grokked Models are Better Unlearners[Cardiff University]https://arxiv.org/abs/2512.03437---[LG] Cache What Lasts: Token Retention for Memory-Bounded KV Cache in LLMs[JPMorganChase AI Research & Yale University]https://arxiv.org/abs/2512.03324---[LG] MarkTune: Improving the Quality-Detectability Trade-off in Open-Weight LLM Watermarking[University of Pennsylvania & CMU & Columbia University]https://arxiv.org/abs/2512.04044
今天我们不聊模型又变大了多少,而是聊几个让AI变得更聪明、更高效的“巧思”。我们会看到,AI如何用“笨办法”打破人类专家的优化极限,又为什么一本精心准备的“错题本”却教不会它自我反思。接着,我们会探索如何用“名师点拨”和“随身小抄”让AI低成本地自我进化。最后,看看如何让AI裁判学会投出更“聪明”的一票,而不仅仅是少数服从多数。准备好了吗?让我们一起看看,这些最新论文是如何用“四两拨千斤”的智慧,刷新我们对人工智能的认知。00:00:40 人工智能时代,还有“最优解”这回事吗?00:05:11 给AI上“错题本”,它就能学聪明吗?00:09:37 AI自学的终极秘诀:不是“题海战术”,而是“名师点拨”00:13:43 AI太贵用不起?这里有个“随身小抄”的省钱妙计00:20:13 AI当裁判,如何投出更聪明的一票?本期介绍的几篇论文:[LG] CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning[DeepReinforce Team]https://arxiv.org/abs/2512.02551---[LG] Synthetic Error Injection Fails to Elicit Self-Correction In Language Models[UC Berkeley]https://arxiv.org/abs/2512.02389---[LG] Guided Self-Evolving LLMs with Minimal Human Supervision[Tencent AI Lab in Seattle & Washington University in St. Louis]https://arxiv.org/abs/2512.02472---[LG] In-Context Distillation with Self-Consistency Cascades: A Simple, Training-Free Way to Reduce LLM Agent Costs[Stanford University & Reve]https://arxiv.org/abs/2512.02543---[LG] Distribution-Calibrated Inference time compute for Thinking LLM-as-a-Judge[Google & Google DeepMind]https://arxiv.org/abs/2512.03019
loading
Comments