DiscoverSeventy3
Seventy3
Claim Ownership

Seventy3

Author: 任雨山

Subscribed: 0Played: 2
Share

Description

73播客,名字取材于Sheldon最喜欢的数字,内容由NotebookLM生成,每天跟随AI读AI业界论文。
493 Episodes
Reverse
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:DeepSeek-V3.2: Pushing the Frontier of Open Large Language ModelsSummary我们提出 DeepSeek-V3.2,一款在高计算效率与卓越推理能力及智能体(agent)表现之间实现良好平衡的模型。DeepSeek-V3.2 的核心技术突破主要体现在以下三个方面: DeepSeek 稀疏注意力(DeepSeek Sparse Attention,DSA):我们提出了 DSA,一种高效的注意力机制,在长上下文场景下能够在保持模型性能的同时显著降低计算复杂度。 可扩展的强化学习框架:通过构建稳健的强化学习流程并扩展后训练阶段的计算规模,DeepSeek-V3.2 的整体表现可与 GPT-5 相媲美。尤其值得注意的是,高算力版本 DeepSeek-V3.2-Speciale 不仅在整体性能上超越 GPT-5,其推理能力也达到了与 Gemini-3.0-Pro 相当的水平,并在 2025 年国际数学奥林匹克竞赛(IMO)和国际信息学奥林匹克竞赛(IOI)中均取得金牌级表现。 大规模智能体任务合成流水线:为将推理能力有效融入工具使用场景,我们设计了一种全新的任务合成流水线,能够系统性地大规模生成训练数据。该方法支持可扩展的智能体后训练,在复杂交互环境中显著提升了模型的泛化能力与指令遵循的鲁棒性。总体而言,DeepSeek-V3.2 通过在架构、训练范式与数据合成上的协同创新,实现了高效计算与高水平推理及智能体能力的统一。原文链接:https://arxiv.org/abs/2512.02556
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Evolution Strategies at the HyperscaleSummary我们提出 EGGROLL(Evolution Guided General Optimization via Low-rank Learning,基于低秩学习的进化引导通用优化),一种进化策略(Evolution Strategies,ES)算法,旨在将无需反向传播的优化方法扩展到适用于拥有数十亿参数的现代大型神经网络架构和超大规模种群规模。ES 是一类强大的黑盒优化方法,能够有效处理不可微或含噪目标函数,并可通过并行化实现良好的扩展性。然而,朴素的 ES 在大规模场景下成本极高,其瓶颈主要来自生成矩阵扰动 E∈Rm×nE∈Rm×n 所需的计算与内存开销,以及为计算每个种群成员前向传播而进行的批量矩阵乘法。EGGROLL 通过生成随机矩阵 A∈Rm×rA∈Rm×r 与 B∈Rn×rB∈Rn×r(其中 r≪min⁡(m,n)r≪min(m,n)),并以低秩矩阵扰动 AB⊤AB⊤ 替代全秩扰动 EE,从而有效克服了上述瓶颈。由于整体参数更新是对 NN 个工作节点的结果进行平均,最终得到的更新仍然具有较高秩,但在内存与计算开销上实现了显著节省:与全秩 ES 相比,每一层的辅助存储从 mnmn 降低至 r(m+n)r(m+n),单次前向传播的计算复杂度也从 O(mn)O(mn) 降低至 O(r(m+n))O(r(m+n))。理论分析表明,该低秩更新能够以快速的 O(1/r)O(1/r) 收敛速率逼近全秩更新。实验结果显示:(1)尽管速度更快,EGGROLL 在从零开始(tabula rasa)的强化学习设置中并未牺牲 ES 的性能;(2)在提升大语言模型推理能力方面,其表现可与 GRPO 相媲美;(3)EGGROLL 使得完全基于整数数据类型运行的非线性循环语言模型实现稳定的预训练成为可能。原文链接:https://arxiv.org/abs/2511.16652
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:HunyuanOCR Technical ReportSummary本文提出 HunyuanOCR,一款面向 OCR 任务的商用级、开源且轻量化(10 亿参数)视觉—语言模型(Vision-Language Model,VLM)。其架构由原生视觉 Transformer(ViT)与轻量级大语言模型(LLM)组成,并通过 MLP 适配器进行连接。HunyuanOCR 展现出卓越性能,全面超越商业 API、传统 OCR 流水线以及更大规模的模型(如 Qwen3-VL-4B)。在感知类任务(文本检测与识别、文本解析)上,其性能优于当前公开方案;在语义类任务(信息抽取、图像文本翻译)上同样表现突出,并在 ICDAR 2025 DIMT 挑战赛(小模型赛道)中获得第一名。此外,HunyuanOCR 在 OCRBench 上取得了参数规模小于 30 亿的 VLM 中的最优(SOTA)成绩。HunyuanOCR 在以下三个关键方面实现了突破: 通用性与效率的统一:在轻量化框架下,模型全面支持文本检测与识别、解析、信息抽取(IE)、视觉问答(VQA)以及翻译等核心能力,弥补了传统“专用 OCR 模型”能力单一以及“通用 VLM”效率低下的不足。 简洁的端到端架构:采用纯端到端范式,消除了对版面分析等预处理模块的依赖,从根本上解决了传统流水线中常见的误差累积问题,并显著简化了系统部署。 数据驱动与强化学习策略:验证了高质量数据在 OCR 任务中的关键作用,并首次在工业界证明,引入强化学习(Reinforcement Learning,RL)策略能够为 OCR 任务带来显著的性能提升。HunyuanOCR 已在 HuggingFace 上正式开源。同时,我们提供了基于 vLLM 的高性能部署方案,使其在生产环境中的效率跻身业界第一梯队。我们期望该模型能够推动前沿研究的发展,并为工业级应用提供坚实基础。原文链接:https://arxiv.org/abs/2511.19575
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:On the Fundamental Limits of LLMs at ScaleSummary大语言模型(Large Language Models,LLMs)从规模化发展中获得了巨大的性能提升,但这些收益最终受到五个根本性限制的约束:(1)幻觉问题,(2)上下文压缩,(3)推理能力退化,(4)检索脆弱性,以及(5)多模态失配。尽管现有综述对这些现象进行了经验性描述,但尚缺乏将其与计算、信息与学习的基础极限相联系的严格理论综合。本文通过提出一个统一的、以证明为支撑的理论框架,弥补了这一空白,系统刻画了 LLM 规模化所面临的内在理论上限。首先,可计算性与不可计算性理论表明,误差的存在不可消除:对于任何可枚举的模型族,基于对角化原理,总存在某些输入使得至少一个模型必然失败;而不可判定查询(如停机问题类型的任务)则会为所有可计算预测器诱导出无限的失败输入集合。其次,信息论与统计学约束限定了即便在可判定任务上所能达到的最高精度;有限的描述长度不可避免地引入压缩误差,而对长尾事实性知识的学习则需要极其高昂的样本复杂度。再次,几何与计算层面的效应会使长上下文在实际表示中被压缩到远低于其名义长度的规模,其原因包括位置相关训练不足、编码衰减以及 softmax 拥挤效应。此外,我们进一步表明,基于似然的训练目标更倾向于模式补全而非真正的推理;在 token 预算受限的条件下,检索过程容易受到语义漂移与耦合噪声的影响;而多模态规模化则继承了跨模态对齐较为浅层的问题。全文通过将形式化定理与经验证据相结合,系统勾勒出规模化在哪些方面能够持续带来收益、在哪些方面趋于饱和、以及在哪些方面无法再取得进展,并在此基础上提出了若干切实可行的缓解路径,例如受限预言机检索(bounded-oracle retrieval)、位置感知训练课程(positional curricula),以及稀疏或层级化注意力机制。原文链接:https://arxiv.org/abs/2511.12869
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Think, Speak, Decide: Language-Augmented Multi-Agent Reinforcement Learning for Economic Decision-MakingSummary经济决策不仅依赖于价格、税收等结构化信号,还深受同伴交流与媒体叙事等非结构化语言信息的影响。尽管多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)在优化经济决策方面展现出潜力,但其在处理语言所固有的语义歧义性和上下文丰富性方面仍面临显著挑战。我们提出 LAMP(Language-Augmented Multi-Agent Policy,语言增强型多智能体策略) 框架,将语言系统性地融入经济决策过程,从而缩小与真实世界场景之间的差距。LAMP 采用 Think–Speak–Decide(思考–表达–决策) 的流水线式架构: Think(思考):对数值型观测进行解释,提取短期冲击与长期趋势,并缓存高价值的推理轨迹; Speak(表达):基于推理结果生成并交换策略性语言信息,通过解析同伴通信来更新自身信念; Decide(决策):将数值数据、推理过程及反思信息进行融合,形成 MARL 策略,以优化语言增强条件下的决策行为。在经济仿真实验中,LAMP 在多项指标上均显著优于传统 MARL 方法和仅依赖大语言模型(LLM-only)的基线方法,包括累计回报(分别提升 63.5% 与 34.0%)、鲁棒性(分别提升 18.8% 与 59.4%)以及可解释性。这些结果表明,语言增强型策略在构建更加高效且稳健的经济决策方案方面具有显著潜力。原文链接:https://arxiv.org/abs/2511.12876
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Seer: Online Context Learning for Fast Synchronous LLM Reinforcement LearningSummary强化学习(Reinforcement Learning,RL)已成为推动现代大语言模型(Large Language Models,LLMs)发展的关键技术。然而,现有的同步式 RL 系统面临严重的性能瓶颈。占据端到端迭代时间主要部分的 rollout 阶段,由于固有的工作负载不均衡,存在显著的长尾时延以及资源利用率低下的问题。我们提出了 Seer,一种新颖的在线上下文学习系统,通过挖掘此前被忽视的特性来应对上述挑战:对于共享相同提示(prompt)的请求,其输出长度和生成模式之间往往具有高度相似性。基于这一观察,Seer 引入了三项关键技术:用于动态负载均衡的分割式 rollout、上下文感知调度,以及自适应的分组推测解码(speculative decoding)。这些机制协同作用,在 rollout 过程中显著降低了长尾时延并提升了资源效率。在生产级 RL 工作负载上的评测结果表明,与当前最先进的同步 RL 系统相比,Seer 将端到端 rollout 吞吐量提升了 74% 至 97%,同时将长尾时延降低了 75% 至 93%,从而显著加速了 RL 训练迭代。原文链接:https://arxiv.org/abs/2511.14617
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:SAM 3: Segment Anything with ConceptsSummary我们提出了 Segment Anything Model(SAM)3,这是一种统一模型,能够基于概念提示在图像和视频中进行目标检测、分割与跟踪。我们将概念提示定义为:简短的名词短语(例如“黄色校车”)、图像示例,或二者的组合。可提示概念分割(Promptable Concept Segmentation,PCS)以此类提示为输入,输出所有匹配目标实例的分割掩码及其唯一身份标识。为推动 PCS 的发展,我们构建了一个可扩展的数据引擎,生成了一个高质量数据集,涵盖图像和视频中的 400 万个独特概念标签,并包含具有挑战性的负样本。我们的模型由图像级检测器和基于记忆的视频跟踪器组成,二者共享同一个主干网络。通过引入存在性头(presence head),实现了识别与定位的解耦,从而提升了检测精度。在图像和视频 PCS 任务上,SAM 3 的准确率均达到现有系统的两倍,同时也在视觉分割任务上显著提升了以往 SAM 的能力。我们对 SAM 3 以及全新的 Segment Anything with Concepts(SA-Co) 基准数据集进行了开源,用于可提示概念分割研究。原文链接:https://arxiv.org/abs/2511.16719
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Early science acceleration experiments with GPT-5Summary像 GPT-5 这样的 AI 模型正日益成为科学家的一项重要工具,但仍有许多人尚未充分了解前沿 AI 的能力。我们展示了一组简短的案例研究,说明 GPT-5 如何在数学、物理学、天文学、计算机科学、生物学以及材料科学等多个领域的持续研究中,提出了新的、具体的研究推进步骤。在这些案例中,作者既强调了 AI 如何加速了他们的工作,也指出了其不足之处;既说明了在哪些环节节省了专家时间,也明确了哪些地方仍然离不开人类的关键投入。我们记录了人类作者与 GPT-5 的交互过程,作为与 AI 进行高效协作的示范性案例。值得注意的是,本文包含了四项新的数学结果(均由人类作者进行了严格验证),这凸显了 GPT-5 在帮助人类数学家解决此前未解问题方面的潜力。尽管这些成果在规模上相对有限,但鉴于前沿 AI 的发展速度,其所蕴含的意义却十分深远。原文链接:https://arxiv.org/abs/2511.16072
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:The Era of Agentic Organization: Learning to Organize with Language ModelsSummary我们设想一个全新的 AI 时代,称为智能体化组织(agentic organization):多个智能体通过协作与并发工作来解决复杂问题,从而实现超越单一智能体能力的结果。为实现这一愿景,我们提出了一种新的大语言模型推理范式——异步思考(Asynchronous Thinking,AsyncThink),其核心思想是将内部思考过程组织为可并发执行的结构。具体而言,我们提出了一种思考协议:由一个组织者(organizer)动态地将子查询分配给多个工作者(workers),整合中间知识,并生成连贯一致的最终解答。更重要的是,该协议中的思考结构还可以通过强化学习进一步优化。实验结果表明,与并行思考(parallel thinking)相比,AsyncThink 在数学推理任务中不仅将推理延迟降低了 28%,还同时提升了准确率。此外,AsyncThink 能够将其学到的异步思考能力进行泛化,在无需额外训练的情况下,有效应对未见过的新任务。原文链接:https://arxiv.org/abs/2510.26658
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Olympiad-level formal mathematical reasoning with reinforcement learningSummary人工智能的一个长期目标,是构建能够在广阔领域中进行复杂推理的系统,而数学正是这一目标的典型代表:它拥有无穷无尽的概念,并且要求严格的形式化证明。近年来的 AI 系统往往依赖人工生成的数据,通常缺乏形式化验证,因此难以保证推理结果的正确性。相比之下,诸如 Lean¹ 这样的形式化语言提供了一个能够将推理过程严格锚定的交互式环境,而强化学习(RL)则为在此类环境中进行学习提供了有效机制。我们提出了 AlphaProof,一个受 AlphaZero² 启发的智能体,通过在数百万道自动形式化的问题上进行强化学习训练,学会寻找形式化证明。对于最困难的问题,AlphaProof 采用了一种称为“测试时强化学习”(Test-Time RL)的方法:在推理阶段生成并从数百万个相关问题变体中进行学习,从而实现深度的、针对具体问题的自适应能力。AlphaProof 在历史数学竞赛题目上显著超越了当前最先进的方法。在 2024 年国际数学奥林匹克(IMO)竞赛中,以 AlphaProof 作为核心推理引擎的 AI 系统成功解出了五道非几何题中的三道,其中包括本届竞赛中最困难的一题。结合 AlphaGeometry 2³,该系统在多天计算资源支持下取得了相当于银牌得主的成绩,这也标志着 AI 系统首次达到任何奖牌级别的表现。我们的工作表明,在有坚实约束的环境中进行大规模经验学习,能够产生具备复杂数学推理策略的智能体,为构建可靠的复杂数学问题求解型 AI 工具铺平了道路。原文链接:https://www.nature.com/articles/s41586-025-09833-y
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Intelligence per Watt: Measuring Intelligence Efficiency of Local AISummary大语言模型(LLM)的查询目前主要由集中式云基础设施上的前沿模型来处理。需求的快速增长正在给这一范式带来压力,云服务提供商也难以按同样的速度扩展其基础设施。两项进展使我们能够重新思考这一范式:其一,小型语言模型(≤200 亿活跃参数)如今在许多任务上已能达到与前沿模型相当的性能;其二,本地加速器(如 Apple M4 Max)能够以交互式延迟运行这些模型。这引出了一个问题:本地推理是否能够可行地将需求从集中式基础设施中重新分配出来?要回答这一问题,需要衡量本地语言模型是否能够准确回答真实世界的查询,以及它们在受功耗约束的设备(即笔记本电脑)上是否具备足够的效率以实现实际应用。我们提出“每瓦智能”(Intelligence Per Watt,IPW)这一指标,即任务准确率除以单位功耗,用于评估不同模型–加速器组合下本地推理的能力与效率。我们开展了一项大规模实证研究,覆盖 20 余个最先进的本地语言模型、8 种加速器,以及一组具有代表性的 LLM 流量:100 万条真实世界的单轮聊天与推理查询。对于每一条查询,我们测量其准确率、能耗、延迟和功率。分析结果揭示了三点发现。第一,本地语言模型能够准确回答 88.7% 的单轮聊天与推理查询,且准确率因应用领域而异。第二,在 2023–2025 年间,IPW 提升了 5.3 倍,本地查询覆盖率从 23.2% 提高到 71.3%。第三,在运行相同模型的情况下,本地加速器的 IPW 至少比云端加速器低 1.4 倍,显示出显著的优化空间。这些发现表明,本地推理能够在实质上将需求从集中式基础设施中重新分配出来,而 IPW 是衡量和跟踪这一转变的关键指标。我们同时发布了 IPW 性能分析工具,用于系统化的“每瓦智能”基准测试。原文链接:https://arxiv.org/abs/2511.07885
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:From Code Foundation Models to Agents and Applications: A Practical Guide to Code IntelligenceSummary大型语言模型(LLMs)通过实现自然语言描述到功能性代码的直接转换,已经从根本上改变了自动化软件开发,并通过 GitHub Copilot(微软)、Cursor(Anysphere)、Trae(字节跳动)以及 Claude Code(Anthropic)等工具驱动了商业落地。该领域从基于规则的系统演进到基于 Transformer 的架构,性能在基准测试(如 HumanEval)上从个位数成功率提升至超过 95%。在本研究中,我们对代码 LLM 进行系统性的综述与实践指南(涵盖一系列分析性与探测性实验),全面考察从数据筛选、预训练到后训练阶段的完整模型生命周期,包括高级提示范式、代码预训练、监督微调、强化学习以及自主编程代理。我们分析了通用 LLM(GPT-4、Claude、LLaMA)与代码专用 LLM(StarCoder、Code LLaMA、DeepSeek-Coder、QwenCoder)的代码能力,并对其技术、设计选择与权衡进行了批判性审视。此外,我们明确了学术研究(如基准测试与任务)与真实世界部署(如软件相关代码任务)之间的差距,包括代码正确性、安全性、大规模代码库的上下文理解,以及与开发工作流的整合,并将具潜力的研究方向映射到实际需求。最后,我们开展了一系列实验,对代码预训练、监督微调与强化学习进行了全面分析,涵盖缩放律、框架选择、超参数敏感性、模型架构以及数据集对比等方面。原文链接:https://arxiv.org/abs/2511.18538
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Towards Multi-Agent Economies: Enhancing the A2A Protocol with Ledger-Anchored Identities and x402 Micropayments for AI AgentsSummary本研究文章提出了一种全新的架构,通过解决新兴的 Agent2Agent(A2A)通信协议的两项关键限制——去中心化的代理可发现性与代理间小额支付(micropayments)——从而增强多代理经济系统的能力。通过集成分布式账本技术(DLT),该架构使代理卡(AgentCards)能够作为智能合约在链上进行防篡改发布,从而提供安全且可验证的代理身份。该架构进一步通过 x402 开放标准扩展 A2A,利用 HTTP 402 状态码实现区块链无关的、基于 HTTP 的小额支付机制。由此,自治代理能够跨越组织边界,实现无缝的发现、认证和支付。本研究同时给出了全面的技术实现与评估,验证了基于 DLT 的代理发现与小额支付机制的可行性。所提出的方法为安全、可扩展且具有经济可行性的多代理生态系统奠定基础,推动代理型人工智能在可信的自治经济交互方向持续发展。原文链接:https://arxiv.org/abs/2507.19550
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:The Unreasonable Effectiveness of Scaling Agents for Computer UseSummary计算机使用代理(CUAs)在自动化日常数字任务方面具有潜力,但其不稳定性和高方差阻碍了其在长时程、复杂任务中的应用。我们提出 Behavior Best-of-N(bBoN),一种通过生成多条 rollout 并使用描述代理行为的行为叙事对其进行选择,从而实现对代理进行可扩展性的方式。该方法同时支持广泛探索与基于原理的轨迹选择,显著提升了鲁棒性和成功率。在 OSWorld 上,我们的 bBoN 扩展方法达成了新的 SOTA(State of the Art):69.9%,显著优于先前方法,并接近 72% 的人类水平表现。全面的消融实验验证了关键设计选择的有效性。我们进一步在 WindowsAgentArena和 AndroidWorld 上展示了对不同操作系统的强泛化性能。关键在于,我们的结果强调:当方法得当时,对 CUAs 的扩展具有“非合理的有效性”。有效的扩展需要对轨迹进行结构化理解与选择,而 bBoN 提供了一个实现这一点的实用框架。原文链接:https://arxiv.org/abs/2510.02250
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Rethinking JEPA: Compute-Efficient Video SSL with Frozen TeachersSummary视频联合嵌入预测架构(Video Joint Embedding Predictive Architectures, V-JEPA)通过在潜在空间中预测被遮蔽的区域、并采用指数移动平均(EMA)更新的教师网络,来学习可泛化的现成视频表征。尽管 EMA 能避免表征坍缩,但它使得大规模模型选择更加复杂,并使教师与学生的架构耦合在一起。我们重新审视了掩码潜在预测,并证明冻结教师即可满足需求。具体而言,我们:(i)使用简单的像素重建目标在 V-JEPA 的掩码机制下训练一个目标编码器作为教师;然后(ii)将该教师冻结,并训练一个学生来预测教师在被遮蔽区域的潜在表示。由此形成了一个两阶段、无正则化的训练方案,我们称之为 SALT(Static-teacher Asymmetric Latent Training,静态教师的非对称潜在训练)。SALT 将优化过程解耦为像素重建(教师)与掩码潜在预测(学生),提升了透明性、效率与可扩展性,同时保持了冻结评估条件下的表征泛化能力。在实证层面,我们的学生模型在冻结骨干网络评估中,跨多个基准任务优于最新提出的 V-JEPA 2 编码器。同时,它们在计算上更为高效:在相同的预训练 FLOPs 下,我们的方法实现了更高的 probing 精度,其 scaling 曲线在精度-FLOPs 的帕累托前沿上全面优于 V-JEPA。最后,我们发现学生模型的性能对教师质量具有显著鲁棒性:即便教师较小且次优,高性能的学生仍能涌现。这表明在计算预算分配上应大幅度偏向学生阶段。这些结果说明,SALT 是一种相较于基于 EMA 的自蒸馏机制更为简单、可扩展且计算高效的视频表征学习替代方案。原文链接:https://arxiv.org/abs/2509.24317
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse AttentionSummary我们介绍 DeepSeek-V3.2,这一模型在高计算效率与卓越的推理及智能体性能之间实现了协调统一。DeepSeek-V3.2 的关键技术突破包括:(1) DeepSeek 稀疏注意力机制(DSA):我们提出 DSA,这是一种高效的注意力机制,在长上下文场景中显著降低计算复杂度,同时保持模型性能。(2) 可扩展强化学习框架:通过实施稳健的强化学习协议并扩展后训练(post-training)计算规模,DeepSeek-V3.2 的表现可与 GPT-5 比肩。值得注意的是,我们的高计算版本 DeepSeek-V3.2-Speciale 超越了 GPT-5,并展现出可与 Gemini-3.0-Pro 比拟的推理能力,在 2025 年国际数学奥林匹克竞赛(IMO)和国际信息学奥林匹克竞赛(IOI)中均达到了金牌水平。(3) 大规模智能体任务合成管线:为将推理能力融入工具使用场景,我们构建了一种全新的合成管线,可系统化、大规模生成训练数据。该方法支持可扩展的智能体后训练,使模型在复杂互动环境中的泛化能力和指令跟随稳健性均获得显著提升。原文链接:https://arxiv.org/abs/2512.02556
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:LLM-JEPA: Large Language Models Meet Joint Embedding Predictive ArchitecturesSummary大型语言模型(LLM)的预训练、微调与评测依赖于输入空间的重建与生成能力。然而,在计算机视觉领域已有观察表明,基于嵌入空间的训练目标(例如联合嵌入预测架构,Joint Embedding Predictive Architectures, JEPAs)远优于基于输入空间的方法。语言与视觉在训练方式上的这种差异引出了一个自然的问题:语言模型的训练方法是否能够从视觉模型中借鉴一些技巧?缺乏 JEPA 风格的 LLM 本身证明了为语言设计此类目标的困难。在本研究中,我们朝这一方向迈出了第一步,提出了 LLM-JEPA,一种基于 JEPA 的解决方案,可应用于 LLM 的微调与预训练。到目前为止,LLM-JEPA 在多个模型上显著优于标准的 LLM 训练目标,并且对过拟合表现出稳健性。这些结果已在多个数据集(NL-RX、GSM8K、Spider、RottenTomatoes)以及来自 Llama3、OpenELM、Gemma2 和 Olmo 系列的多种模型上得到验证。代码:this https URL。原文链接:https://arxiv.org/abs/2509.14252
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Collaborative Document Editing with Multiple Users and AI AgentsSummary当前的人工智能写作支持工具主要面向个人设计,这使得协作变得复杂:共同作者需要离开共享写作空间以使用 AI,然后再沟通并重新整合结果。我们提出将 AI 代理直接集成到协同写作环境中。我们的原型通过两个新的共享对象——代理配置文件和任务——使 AI 的使用变得透明且可定制。代理的回应以熟悉的评论功能呈现。在一项用户研究中(N=30),14 个团队在一周时间内开展写作项目。交互日志和访谈显示,各团队将代理纳入其现有的作者身份、控制和协调规范之中,而不是将代理视为团队成员。代理配置文件被视为个人领地,而创建的代理和其产出则成为共享资源。我们讨论了面向团队的 AI 交互的相关启示,强调了在协同工作中将 AI 视为共享资源的机会和边界。原文链接:https://arxiv.org/abs/2509.11826
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Is In-Context Learning Learning?SummaryIn-context learning(ICL) 使某些自回归模型能够通过下一 token 预测来解决任务,而无需进一步训练。这导致了一个常见论断:这些模型能够在提示中仅通过少量示例(few-shot exemplars)就解决(学习)未见过的任务。然而,推理能力并不必然意味着学习,因为 ICL 并不会显式编码给定的观测数据;相反,模型依赖其已有的先验知识以及(若存在)提示中的示例。我们提出,从数学角度来看,ICL 的确构成一种学习方式,但其完整特征化仍需依赖实证研究。为此,我们开展了大规模 ICL 分析,通过消除或控制记忆效应、预训练影响、分布偏移、提示风格和措辞方式等因素进行系统实验。我们发现,ICL 是一种有效的学习范式,但在学习和泛化到未见任务方面具有明显局限性。值得注意的是,当示例数量趋于增多时,模型的准确率对示例分布、模型类型、提示风格以及输入的语言特征变得不敏感。相反,模型会从提示中的规律性中推断模式,这导致显著的分布敏感性,特别是在 chain-of-thought 等提示风格中尤为明显。鉴于模型在形式上类似的任务中表现出截然不同的准确率,我们得出结论:自回归模型的临时式(ad-hoc)编码机制并不稳健,并暗示其通用泛化能力有限。原文链接:https://arxiv.org/abs/2509.10414
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:K2-Think: A Parameter-Efficient Reasoning SystemSummaryK2-Think 是一个推理系统,在 32B 参数规模下实现了 SOTA 表现,达到或超过诸如 GPT-OSS 120B 和 DeepSeek v3.1 等更大模型的水平。基于 Qwen2.5 基座模型构建,我们的系统展示出:通过结合先进的后训练技术与测试阶段的计算优化,小型模型同样能够在高性能推理任务中竞争。这一方法基于六个关键技术支柱:长链路思维(Chain-of-thought)监督微调、可验证奖励的强化学习(RLVR)、推理前的代理式规划、测试时扩展(Test-time Scaling)、推测式解码(Speculative Decoding)、以及推理优化硬件,全部依托公开的开源数据集。K2-Think 在数学推理方面表现突出,在开源模型的公共基准上取得了 SOTA 成绩,同时在代码和科学等其他领域也表现强劲。我们的结果证实,像 K2-Think 32B 这样参数更高效的模型,能够通过包含长链路思维训练与战略性推理阶段增强的综合后训练方案,与最先进系统竞争,使开源推理系统更加易用且具成本效益。K2-Think 已免费开放获取,可通过 Cerebras Wafer-Scale Engine 实现每个请求超过 2,000 tokens/s 的顶级推理速度。原文链接:https://arxiv.org/abs/2509.07604
loading
Comments