Daily LLM Papers

让AI来聊一聊最新的大模型领域论文/报告。

PLAY ON CASTBOX

通义深度研究：开源AI研究新范式

通义 DeepResearch：开源 AI 智能体的新纪元阿里巴巴通义实验室在开发自主信息搜索和推理代理模型方面的进展，集中于三个相关的项目：Tongyi DeepResearch、WebDancer 和 WebSailor。这些研究的核心目标是构建能够执行复杂、多步骤任务的大型语言模型（LLMs），方法包括生成高质量、高不确定性的训练数据，例如通过构建知识图谱和模糊信息来合成问题（SailorFog-QA, CRAWLQA），以及使用如 ReAct 框架和强化学习（RL）等后训练方法。特别是，WebSailor 引入了 DUPO 算法来提高 RL 训练的效率和有效性，而 WebWatcher 则将代理的能力扩展到了多模态（Vision-Language, VL）推理任务，并在 BrowseComp-VL 和 HLE 等挑战性基准测试中展现出超越现有开源和专有系统的性能。

09-21

24:25

腾讯AI Lab的“角色中心”：十亿虚拟角色如何驱动AI生成数据

Scaling Synthetic Data Creation with 1,000,000,000 PersonasPersona Hub 是一个包含 10亿个多样化角色（persona）的集合，这些角色是从海量网络数据中自动整理出来的。这些角色约占世界总人口的13%。Persona Hub中的每个角色都被视为世界知识的分布式载体，与独特的知识、经验、兴趣、个性和职业相关联。从压缩的角度来看，Persona Hub（约10^10个token）可以被看作是将用于训练大型语言模型（LLM）的公共网络文本（约10^14个token）压缩成分布式载体的形式。Persona Hub 通过引入一种新颖的角色驱动数据合成方法，彻底改变了LLM的合成数据创建。以下是 Persona Hub 如何实现这一革命性变革的详细说明：1. 解决多样性和可扩展性挑战：◦ 以往的合成数据创建方法，如“实例驱动”和“关键点驱动”，在扩展多样性方面面临挑战。实例驱动方法受限于种子语料库的规模，难以超越其多样性。关键点驱动方法则难以枚举所有不同粒度的关键点，除非仅限于狭窄领域。◦ Persona Hub 的角色驱动方法克服了这些限制，通过将角色添加到数据合成提示中，引导LLM从相应视角创建独特的合成数据。由于几乎所有LLM用例都可以与特定角色关联，因此只要构建一个全面的角色集合，就可以大规模创建包罗万象的合成数据。Persona Hub 的10亿个角色可以充分利用LLM中封装的几乎所有视角，从而大规模地促进各种场景下多样化合成数据的创建。2. Persona Hub 的构建方式：◦ Persona Hub 采用两种可扩展的方法从海量网络数据中获取多样化角色：文本到角色（Text-to-Persona）和角色到角色（Persona-to-Persona）。◦ 文本到角色：通过提示LLM“谁可能[阅读|撰写|喜欢|不喜欢|...]此文本？”，从任何文本中推断出相应的角色。输入文本的细节程度可以影响生成角色描述的粒度，例如，从数学教科书或超导学术论文中提取的文本会产生更具体和细致的角色描述。◦ 角色到角色：用于补充文本到角色方法可能难以触及的低可见度角色（例如，儿童、乞丐或电影幕后工作人员），通过利用角色间的人际关系来派生新角色。例如，通过提示LLM“谁与给定角色关系密切？”，可以从儿科护士的角色派生出儿童的角色。◦ 为了确保多样性，Persona Hub 还通过 MinHash 和基于嵌入的去重方法，以0.9的相似度阈值进行去重，最终收集了超过10亿个角色。3. 广泛的应用场景和潜力：◦ Persona Hub 能够促进大规模创建各种高质量的合成数据，包括：▪ 数学和逻辑推理问题：可以通过结合不同专业背景的角色（例如，化学动力学研究员、语言学家、数学教师、数学教授）来生成多样化、特定领域甚至奥林匹克级别的数学问题。例如，一个语言学家角色可以生成计算语言学背景下的几何问题。▪ 指令（用户提示）：Persona Hub 可用于模拟各种真实用户，预测他们对LLM的典型请求，生成多样化的用户指令。这些指令可用于增强LLM的指令遵循和对话能力，甚至可以模拟两人之间的对话。▪ 知识丰富文本：通过让LLM扮演 Persona Hub 中的角色来撰写类似 Quora 文章的文本，可以引发LLM相应领域的知识和视角，从而生成大量涵盖广泛主题和不同粒度的知识丰富内容。▪ 游戏NPCs（非玩家角色）：将 Persona Hub 中的真实世界角色投射到游戏世界中的人物，大大减少游戏设计过程中NPC构思的工作量，例如为《魔兽世界》或《天涯明月刀》创建NPC。▪ 工具（函数）开发：Persona Hub 能够预测用户可能需要的工具，从而预先构建这些工具（函数），使LLM能够直接调用预构建工具来响应类似请求，而不是每次都从头构建。4. 对LLM研究和开发的深远影响：◦ 数据创建范式转变：Persona Hub 使得LLM不再局限于处理现有数据，而是能够从多重视角创建各种类型的新数据，从而推动数据创建从主要由人类完成转向LLM也能大规模完成的范式转变。这有望消除数据瓶颈，将缩放定律推向极限。◦ 现实模拟：10亿个角色可以代表现实世界中的各种个体，通过模拟和推断真实用户的潜在需求和行为，LLM可以自主准备未来的用例，并有效模拟真实世界。这有助于预测产品发布后的用户反应、新法规的公众响应，甚至在沙盒环境、在线游戏或元宇宙中维持一个组织良好的虚拟社会。◦ LLM的“完全记忆访问”：Persona Hub 中的10亿个角色可以触及LLM中编码的几乎所有视角和信息，从而将LLM的综合记忆（参数）转化为文本形式的合成数据，提供了访问LLM全部记忆的潜在机会。◦ 性能提升的验证：通过使用1.07M个合成数学问题对一个7B的LLM（Qwen2-7B）进行微调，该模型在MATH基准测试中取得了64.9%的准确率，达到了GPT-4-turbo-preview的水平，这在仅7B规模的模型上是令人印象深刻的。此外，合成的数学问题有效率高达96.5%。Persona Hub 提供了一种通用、可扩展、灵活且易于使用的数据合成引擎，有望在合成数据创建和应用方面带来范式转变，并对LLM的研究和开发产生深远影响。

09-19

21:33

推理加速：RASD 和 REFRAG 深度解析

REFRAG (REpresentation For RAG) 和 RASD (Retrieval-Augmented Speculative Decoding) 都是旨在提高大型语言模型 (LLM) 推理效率的方法，但它们关注的方面和实现机制有所不同：核心目标和解决的问题：REFRAG：主要目标是解决RAG应用中长上下文输入带来的显著系统延迟和对键值 (KV) 缓存的大量内存需求，从而提高吞吐量并解决知识丰富与系统效率之间的基本权衡问题。它特别关注首个token生成时间 (TTFT) 的优化。REFRAG提出，RAG上下文通常信息稀疏，且检索到的段落之间的交叉注意力模式呈块对角线状，因此大部分计算是不必要的。RASD：旨在通过引入检索方法来增强基于模型的推测解码 (speculative decoding)，从而加速LLM的推理过程。推测解码通过生成草稿token供目标模型验证，显著提高了LLM推理的计算并行性。RASD的核心在于解决传统草稿模型在域外场景中效率低下以及草稿阶段耗时导致验证步长上限低的问题。实现机制：REFRAG：通过压缩 (Compress)、感知 (Sense) 和扩展 (Expand) 上下文表示来优化效率。压缩：不直接使用检索到的段落中的所有token作为输入，而是利用预先计算的、压缩的块嵌入 (compressed chunk embeddings) 作为近似表示，并直接将这些嵌入馈送给解码器。这缩短了解码器输入长度，重用了检索过程中的计算，并将注意力计算复杂度从与token数量的平方关系降低到与块数量的平方关系。感知/选择性压缩：通过一个轻量级的强化学习 (RL) 策略来选择性地确定何时需要完整的块token输入，以及何时低成本的近似块嵌入就足够。RL策略以“下一段落预测困惑度”作为负奖励来指导，以决定哪些块应以原始形式保留。扩展：引入选择性token压缩功能，通过将重要的上下文块未压缩地扩展来改进答案预测，而将不那么关键的片段进行压缩。架构：由一个仅解码器基础模型（如LLaMA）和一个轻量级编码器模型（如Roberta）组成。RASD：通过检索过程 (Retrieval Process)、检索树剪枝 (Retrieval Tree Pruning) 和树融合 (Tree Fusion) 三个主要步骤实现。检索过程：利用检索方法（如PLD或REST）根据当前上下文s'作为查询，从数据存储D中识别延续候选S。PLD通过后缀匹配从输入中检索，REST则从预定义上下文数据库中检索相关token。检索树剪枝：将检索到的候选序列构建成检索树，并根据草稿模型的输出分布（置信度分数）对其进行剪枝，以选择高质量的检索结果。树融合：将草稿模型生成的树与检索树进行融合。通过最长前缀匹配算法合并共享相同前缀的分支，创建一个统一的“检索增强草稿token树”，融合了语言模型和知识库的信息。草稿树验证：目标模型使用树注意力 (tree attention) 在一次前向传递中验证融合后的草稿token树，从而实现加速。RASD可以增强任何使用树注意力的推测解码方法（如EAGLE2）。主要区别总结：关注点：REFRAG关注的是RAG上下文的表示和处理方式，通过压缩上下文信息来减少计算量和内存占用，特别优化TTFT。RASD关注的是推测解码中的草稿token生成质量和效率，通过引入外部检索来辅助生成更准确的草稿序列，减少目标模型的验证步骤。上下文处理方式：REFRAG将整个RAG上下文分块并压缩成嵌入，并通过RL策略动态决定哪些块需要“解压缩”以保留完整信息。RASD通过检索获取上下文延续的候选序列，这些序列被组织成树形结构，并与草稿模型的生成结果融合，用于推测解码的验证。核心技术：REFRAG通过改变上下文的输入表示（从token到块嵌入）来达到效率提升，并利用强化学习进行智能压缩。RASD通过增强推测解码的草稿生成阶段来实现加速，它依赖于检索算法、树结构操作（剪枝、融合）和树注意力验证。应用场景侧重：REFRAG在多种长上下文任务中表现出色，包括RAG、多轮对话和长文档摘要，特别是在相同延迟预算下可以处理更多信息。RASD在文档问答 (DocQA)、摘要 (Summary)、代码生成 (Code) 和域内问答 (In-Domain QA) 等任务中加速推理，并且在知识密集型或草稿模型在域外场景表现不佳时特别有效。简而言之，REFRAG通过优化RAG上下文的**“输入形式”** 来提高效率，而RASD通过优化推测解码中**“草稿token的生成和验证”** 来加速推理。Papers：REFRAG: Rethinking RAG based DecodingRASD: Retrieval-Augmented Speculative Decoding

09-10

39:09

美团入局大模型：LongCat-Flash如何高效驱动智能体？深度解析MoE架构、零计算专家与数据飞轮

LongCat-Flash-ChatLongCat-Flash 模型在架构设计、训练策略和推理部署方面引入了多项创新技术，使其在计算效率和智能体能力方面均表现出色。模型架构创新和技术要点LongCat-Flash 采用了一种新颖的 Mixture-of-Experts (MoE) 架构，其核心创新包括：零计算专家 (Zero-computation Experts)：LongCat-Flash 引入了零计算专家机制，能够根据上下文需求动态分配计算预算。这意味着模型可以为重要的 token 激活更多参数，而对不重要的 token 减少计算，从而优化资源利用。在总共 5600 亿参数中，模型每个 token 平均激活约 270 亿参数，范围在 186 亿至 313 亿之间。通过由 PID 控制器调整的专家偏差来保持平均激活参数的一致性，确保专家间的负载平衡，并在相同的计算预算下实现优于传统 MoE 模型的性能。零计算专家本身不产生额外的计算成本，仅仅返回输入作为输出。快捷连接 MoE (Shortcut-connected MoE, ScMoE)：ScMoE 架构通过引入跨层快捷连接，显著扩大了计算与通信的重叠窗口。这一设计允许前一个模块的密集前馈网络 (FFN) 计算与当前 MoE 层的分派/合并通信并行执行。ScMoE 在训练和推理过程中都带来了显著的效率提升和高吞吐量。例如，在推理时，它实现了单批次重叠 (Single Batch Overlap, SBO) 流水线，理论上可将每输出 token 时间 (TPOT) 减少近 50%。实验证明，ScMoE 优化对模型质量没有负面影响，训练损失曲线与基线模型几乎相同，且其优势与模型规模和注意力机制的选择无关。可扩展性方差对齐设计 (Variance Alignment Design for Scalability)：MLA 的尺度校正 (Scale-Correction for MLA)：LongCat-Flash 改进了多头潜在注意力 (MLA) 机制，引入了尺度校正因子 (αq 和 αkv) 以解决非对称低秩分解中固有的方差不平衡问题，从而在模型扩展时提高收敛性和稳定性。专家初始化方差补偿 (Variance Compensation for Experts Initialization)：针对细粒度专家策略中因专家分割导致的初始化方差降低，提出了方差补偿机制，通过缩放因子 γ 补偿门控稀释和维度降低效应，以保持 MoE 层的输出方差。模型配置 (Model Configurations)：LongCat-Flash 包含 28 层（不包括 MTP 层），隐藏状态维度为 6144。每个 MLA 块使用 64 个注意力头，每个头维度为 128。每个层包含 512 个 FFN 专家和 256 个零计算专家，每个 token 激活 12 个专家。分词器 (Tokenizer)：采用字节对编码 (BPE)，对中文 (CJK) 字符分词进行了增强，并独立处理数字以提升数学能力。词汇量大小优化为 131,072 个 token。多 token 预测 (Multi-Token Prediction, MTP)：作为辅助训练目标以提高推理效率，采用单层密集 MTP 头，在预训练后期实现了约 90% 的接受率。训练策略与基础设施LongCat-Flash 的训练采用了先进的策略和基础设施，以确保模型的可扩展性、稳定性和智能体能力。综合性扩展框架 (Comprehensive Scaling Framework)：结合超参数迁移、模型增长初始化、多管齐下的稳定性套件和确定性计算，实现了稳定且可复现的训练。多阶段训练管线 (Multi-Stage Training Pipeline)：通过精心设计的分阶段流程，培养了模型的智能体行为。初期阶段构建适合智能体后训练的基础模型，处理推理密集型领域数据。中期训练增强推理和编码能力，并将上下文长度扩展至 128k。在此基础上进行多阶段后训练，解决高质量、高难度智能体任务训练数据稀缺的问题。推理和部署优化：采用了模型-系统协同设计，显著提高了吞吐量和降低了延迟。在 H800 GPU 上实现每秒超过 100 个 token (TPS) 的推理速度，每百万输出 token 的成本仅为 0.70 美元。利用 SBO 调度策略、推测解码（通过 MTP 作为草稿模型）和 KV 缓存优化等技术提高推理效率。系统级技术包括多步重叠调度器以最小化调度开销、定制化内核优化 MoE GEMM 的 SwapAB 技术、高效的通信内核以及细粒度块级量化策略。智能体能力培养LongCat-Flash 通过独特的多智能体数据合成框架和长上下文扩展，显著增强了其智能体能力。多智能体数据合成框架 (Multi-Agent Data Synthesis Framework)：通过定义信息处理复杂性、工具集复杂性和用户交互复杂性三个维度来生成需要迭代推理和环境交互的复杂任务。包含 UserProfileAgent, ToolSetAgent, InstructionAgent, EnvironmentAgent, RubricAgent, ValidatorAgent, DeduplicatorAgent 等专用智能体，确保数据的多样性、概念复杂性、领域覆盖率和问题质量。长上下文扩展 (Long Context Extension)：采用两阶段策略将上下文窗口扩展到 128k tokens，并使用高质量长文本数据和结构化的代码仓库数据进行训练。在扩展过程中，通过数据混合策略确保模型通用能力保持稳定。推理和编码增强 (Reasoning and Coding Enhancement)：通过检索预训练数据和数据合成相结合，优化数据质量和多样性，包括知识图谱遍历、多阶段迭代细化、双模态生成与验证等，以提升模型的数学和编码能力。指令遵循和安全 (Instruction Following and Safety)：策划单轮和多轮指令遵循数据集，并构建批判数据集以增强模型的批判性思维。根据内部内容指南开发了全面的内容安全策略，对查询进行分类并生成符合安全标准的响应。这些关键技术和架构创新共同赋予了 LongCat-Flash 在高效计算和复杂智能体任务处理方面的卓越能力和竞争优势。

08-31

21:41

深度解析Intern-S1如何颠覆科研AI

本期论文：INTERN-S1: A SCIENTIFIC MULTIMODAL FOUNDATION MODELIntern-S1 在多个方面展现了显著的创新，这些创新主要体现在其模型架构、数据策略以及训练系统和算法优化上，旨在弥合开放源代码与闭源模型在科学理解和推理能力上的差距，并向通用人工智能（AGI）迈进。以下是 Intern-S1 的主要创新点：专业通用型多模态基础模型定位：Intern-S1 被设计为一个能够分析多种科学模态数据（如分子结构、时间序列信号等）的专业通用型模型。它旨在成为加速科学发现的多模态大型推理模型。创新的模型架构设计：多专家混合（Mixture-of-Experts, MoE）架构：Intern-S1 采用 Qwen3-235B MoE 模型作为基础 LLM，总参数达 2410 亿，激活参数 280 亿，提升了处理复杂任务的能力。多模态编码器：根据科学模态的不同表示形式，Intern-S1 采用不同的策略将其投射到 LLM 的表示空间。InternViT 视觉编码器：使用 InternViT 系列（Intern-S1 采用 InternViT-6B，Intern-S1-mini 采用 InternViT-300M），提供强大的高分辨率、细粒度视觉表示，并支持动态分辨率，通过 MLP 投影仪与语言模型对齐。动态分词器（Dynamic Tokenizer）：这是针对分子结构（如 SMILES 格式）、蛋白质序列等可线性化的离散科学表示设计的。它解决了传统静态分词器在科学领域压缩率低和不同模态相同 token 嵌入偏差的问题。该分词器通过规则或特殊标签检测模态，对不同部分应用不同分词策略，并使它们的嵌入空间相互正交。实验证明，其在科学数据（如 SMILES 格式）上的压缩率比其他模型提高了 70% 以上，显著节省了计算开销。时间序列编码器（Time Series Encoder）：用于处理地震波、引力波、EEG 记录等连续数值序列数据。它能捕捉时间依赖性，将长、连续、缺乏显式语义结构的数据压缩成适合 LLM 理解和推理的表示，并包含专门的自适应下采样模块和基于 Transformer 的块。大规模高质量科学数据策展：高纯度科学数据管道：通过 agent 工作流从网络数据中挖掘预训练数据，将目标领域的数据纯度从约 2% 提高到 50% 以上。页面级 PDF 文档解析：采用混合 OCR 和 VLM 管道，结合低成本解析器（如 MinerU）和高成本 VLM（如 InternVL、Qwen-VL）进行页面级解析，以平衡质量和成本，特别处理包含大量公式和符号标记的文档。以领域为中心的网络数据解析：对来自相同 URL 域的网页，通过 LLM-based agent 应用定制化策略，解决通用解析器难以处理的结构性问题。多模态科学数据管道：构建了多模态科学数据，以保留细粒度的科学结构（如图表、公式、符号、表格），并对齐视觉资产与上下文，生成适用于科学推理的指令式和考试式监督数据。先进的训练系统与算法优化：InternBootCamp 大型交互式环境：一个包含 1000 多种任务的平台，用于模型专业技能学习，提供可验证的奖励信号。Mixture-of-Rewards (MoR) 框架：这是一个创新的算法框架，能够统一协调来自不同任务和反馈形式的奖励信号，实现千级任务的协同学习。对于难以验证的任务（如创意写作、聊天），采用 POLAR 提供统一奖励；对于易于验证的任务，结合验证模型、规则和环境反馈生成精确的奖励标量。该框架使 RL 训练过程的成本比现有基线降低了 10 倍，高样本效率对于教授模型科学领域的专业技能至关重要。可变长度均衡策略（Variable-Length Balanced Strategy, VLBS）：解决了 FSDP 在可变长度训练中的工作负载不平衡问题，平均加速了 2 倍。RL 算法优化：采用 OREAL 算法，通过行为克隆和策略梯度，避免了 MoE 模型训练中因 token 级别裁剪而导致的崩溃问题。引入 KL-Cov 策略进行熵控制，以防止熵快速降低导致探索能力丧失，这对于 Intern-S1 MoE 模型在冷启动后初始熵较低的情况尤为关键。结合了混合离线-在线数据过滤策略，筛选高质量的训练数据，加速模型在数学推理等任务上的改进。训练效率提升：包括 FP8 精度训练、优化的内核（如 Grouped GEMM、Liger-kernel、Flash Attention-3）以及训练和推理引擎的同地设计。训练策略：采用批大小热身（Batch Size Warmup）策略以平衡性能和训练效率，并基于 Scaling Laws 精确调整学习率和批大小切换点。这些集成创新共同使 Intern-S1 在通用推理任务上显著缩小了与闭源大型模型的差距，并在分子合成规划、反应条件预测、晶体热力学稳定性预测等专业科学任务中，表现甚至超越了闭源最先进模型，为开放源代码多模态科学推理设定了新的标杆。

08-24

25:03

超越自回归：并行文本生成技术如何加速大模型推理

原文：A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models该综述文章深入探讨了并行文本生成领域，旨在解决大型语言模型（LLMs）中固有的自回归（AR）生成速度瓶颈。文章系统地将现有技术分为基于自回归（AR-based）和非自回归（Non-AR-based）范式。基于自回归的方法通过草稿-验证、分解-填充和多令牌预测等策略加速生成，同时努力保持输出质量。非自回归方法则包括一次性生成、掩码生成和基于编辑的细化，它们通过打破严格的序列依赖关系来实现更高的并行度，但在质量上可能面临挑战。该研究还比较了这些方法的速度、质量和资源消耗，并讨论了不同加速策略的组合潜力，同时指出了该领域的开放性挑战和未来研究方向。

08-18

12:23

大语言模型链式思维推理：是假象还是真实能力？

作者： Chengshuai Zhao、Zhen Tan、Pingchuan Ma、Dawei Li、Bohan Jiang、Yancheng Wang、Yingzhen Yang 和 Huan Liu (亚利桑那州立大学) 来源： arxiv.org摘要这篇研究论文《大语言模型链式思维推理是假象吗？一个数据分布视角》对大语言模型（LLM）中链式思维（CoT）推理的真实性提出了质疑。尽管CoT提示在提高LLM在各种任务中的性能方面表现出色，并常被认为是LLM进行类人推理过程的证据，但本文通过“数据分布”的视角，论证了CoT推理的有效性主要源于模型从训练数据中学习到的“结构化归纳偏差”，而非真正的逻辑推理能力。研究发现，当测试查询与训练数据存在分布差异时，CoT推理的性能会显著下降，变得脆弱且容易失败，甚至可能生成“流畅但逻辑不一致的推理步骤”。这表明CoT推理更像是一种“基于训练数据中记忆或内插模式的假象”，而非通用的可泛化推理能力。主要发现和重要事实 CoT推理的本质：基于数据分布的视角核心假设：作者提出，CoT推理是LLM从“分布内数据”中学习到的一种“结构化归纳偏差”，使其能够有条件地生成与训练时所见路径相似的推理路径。因此，“其有效性从根本上受到训练数据和测试查询之间分布差异程度的限制。” “脆性幻觉”：研究结果表明，CoT推理是一种“脆性幻觉，当它被推到训练分布之外时就会消失。”它反映的是“对训练期间学习到的模式的复制，而非对文本的真正理解”。 “流畅的胡言乱语”： LLM可能生成“流畅但逻辑不一致的推理步骤”，例如在闰年问题中，模型正确复述了闰年规则并给出了中间步骤，但最终结论却是矛盾的（1776年既是闰年又是普通年份）。这表明“人类推理和CoT推理之间存在区别”。 DataAlchemy：受控实验环境为了系统地探究CoT推理的局限性，作者引入了一个名为“DataAlchemy”的受控、隔离的实验环境。这个框架允许从头开始训练LLM，并在各种分布条件下系统地探测CoT推理。三个维度解剖CoT推理：研究通过三个维度解剖了CoT推理的有效性，这些维度代表了数据分布可能发生偏移的方式：任务泛化： CoT推理在涉及转换或以前未见过的任务结构时的处理能力。长度泛化： CoT推理对与训练数据长度不同的链条的泛化能力（包括文本长度和推理步骤长度）。格式泛化： CoT推理对表面级查询形式变化的敏感度。各项泛化能力的实证验证任务泛化：转换泛化：当模型遇到训练中未见过的转换（例如，ROT转换和循环位置移位的新组合或完全新的转换类型）时，CoT推理的有效性会显著下降。从“分布内（ID）”到“组合（CMP）”、“部分分布外（POOD）”和“分布外（OOD）”，精确匹配率急剧下降，编辑距离和BLEU分数也随之恶化。元素泛化：类似地，当模型遇到训练中未见过的原子元素或元素组合时，性能也会急剧下降。模型在面对新元素时可能无法响应任何词语。微调（SFT）作为“补丁”：尽管在少量未见数据上进行SFT可以显著提高模型对未见转换和元素的泛化能力，但这被视为“修复”而非实现真正的泛化。它只是扩展了模型的“分布内”范围。长度泛化：文本长度泛化：当输入文本长度（元素长度）与训练样本不同时，CoT推理的性能会下降。模型倾向于通过添加或删除标记来复制训练数据的长度，即使这导致逻辑错误。分组填充策略有助于改善长度泛化，而简单填充到最大上下文长度则无益。推理步骤泛化： CoT推理无法泛化到需要不同推理步骤数的任务。当训练数据中逐渐增加目标推理步骤的数据比例时，模型在该目标数据集上的性能才会随之提高，进一步证实了其对数据分布的依赖。格式泛化： CoT推理对查询中的表面级格式变化高度敏感。插入、删除和修改等扰动都会影响正确性，其中插入的影响最大。 “元素和转换在格式中扮演重要角色”，而对其他标记的改变则很少影响结果。温度和模型大小的影响温度： LLM在广泛的温度设置（例如，从1e-5到1）下，在CoT推理方面倾向于生成一致和可靠的结果，即使在各种分布偏移下也能保持这种稳定性。模型大小：实验结果表明，模型大小的变化并没有显著影响主要发现。在不同SFT比例下，不同大小模型的准确率与默认模型大小的结果保持一致。讨论和启示这项研究强调，CoT推理更多地是“一种复杂的结构化模式匹配形式”，其能力“从根本上受到训练期间所见数据分布的限制”。这对于LLM的实际应用和未来研究具有重要意义：警惕过度依赖和虚假信心： CoT不应被视为推理任务的“即插即用”解决方案，特别是在医学、金融或法律分析等高风险领域。LLM产生“流畅的胡言乱语”的能力比直接给出错误答案更具欺骗性，因为它会给人一种虚假的可靠感。领域专家的充分审计必不可少。优先进行分布外（OOD）测试：传统的验证方法（测试集与训练集高度相似）不足以衡量CoT系统的真实鲁棒性。实践者必须实施严格的对抗性测试和OOD测试，系统地探测任务、长度和格式变化中的漏洞。认识到微调是“补丁”，而非“万灵药”： SFT可以快速“修复”模型在新特定数据分布上的性能，但这不应被误认为是实现了真正的泛化。它仅仅是稍微扩大了模型的“分布内”范围。依赖SFT来修复每一次OOD失败是一种不可持续和被动的策略，它未能解决核心问题：模型缺乏抽象推理能力。结论本文通过数据分布的视角对LLM的CoT推理进行了批判性审查，揭示了其所谓的结构化推理能力很大程度上来源于由分布内训练数据形成的归纳偏差。经验发现一致表明，CoT推理能有效地再现与训练分布密切相关的推理模式，但面对分布偏差时会遭受显著的性能下降。这些观察揭示了当前CoT推理能力固有的脆弱性和表面性。研究结果为从业者和研究人员提供了重要的现实世界启示，强调了在追求真实和可泛化推理能力方面仍面临的挑战。

08-09

08:38

Seed Diffusion Preview: 来自字节 Seed 团队的高速推理代码语言模型

Seed Diffusion Preview 技术报告Seed Diffusion模型将扩散（Diffusion）方法应用于代码生成，并实现了显著的高速推理，其核心在于将连续域的扩散概念巧妙地适配到离散的文本数据上，并通过一系列优化策略来加速其迭代生成过程。以下是其主要实现方式：离散状态扩散（Discrete-state Diffusion）：挑战：传统的Diffusion模型天然适用于图像像素或音频频谱图等连续的高维数据，因为在这些数据上定义和操作高斯噪声是一个自然的过程。然而，将Diffusion模型直接应用于文本等离散数据（如代码词元）更具挑战性，因为“给一个单词添加一点点噪声”的概念并不直观，需要设计特殊的离散扩散技术。解决方案：Seed Diffusion Preview是一个基于离散状态扩散的大规模语言模型。它通过定义明确的状态转移矩阵，直接在离散状态空间上构建扩散过程。双阶段课程学习（Two-Stage Curriculum, TSC）：为了提升离散扩散模型的鲁棒性和消除采样过程中可能出现的重复等异常行为，Seed Diffusion采用了两阶段的前向破坏过程训练：基于掩码的前向过程（Mask-based Forward Process）：在训练的前80%步骤中，模型逐步将原始序列中的词元替换为特殊的[MASK]词元。这是一种标准且低方差的训练目标。基于编辑的前向过程（Edit-based Forward Process）：在训练的最后20%步骤中，模型增加了基于编辑的操作，如删除、插入和替换，其破坏程度通过Levenstein距离来控制。这种方法强制模型重新评估所有词元（包括未被掩码的词元），从而缓解了单纯基于掩码训练导致的“过度自信”（即认为未被掩码的词元总是正确的）问题，提高了模型在推理时的自我纠错能力。实现高速推理：非自回归（Non-autoregressive）但迭代式的挑战：尽管扩散模型本身是非自回归的，理论上可以并行生成，但其迭代式、步进敏感的去噪过程在实践中引入了严重的延迟，这削弱了其相对于传统自回归模型的优势。策略性采样与优化：Seed Diffusion采用多种方法来解决推理效率问题：策略性策略扩散学习（On-policy Diffusion Learning）：为了充分发挥并行能力，模型优化了一个目标函数，旨在最小化反向去噪过程的采样步骤数量（|τ|）。这意味着模型学习以更少的迭代次数生成高质量样本，从而显著加快推理速度。这种方法在效果上类似于非自回归机器翻译中的“模式过滤”技术。块级并行扩散采样（Block-level Parallel Diffusion Sampling）：在推理时，模型采用一种半自回归（semi-AR）的方式，以块为单位并行生成词元，同时保持块之间的因果顺序。KV缓存（KV-caching）：对于已经生成的块，模型会利用KV缓存来条件化后续块的生成，进一步提高效率。系统优化：除了算法设计，Seed Diffusion还采用了全面的系统优化和专门的内部基础设施框架，以高效支持块级推理。架构基础：Seed Diffusion模型的核心架构是一个标准的密集Transformer。这意味着它利用了Transformer在处理序列数据和捕捉长程依赖方面的强大能力。性能表现：通过上述创新，Seed Diffusion Preview在H20 GPU上实现了2146词元/秒的推理速度。在多个代码评估基准测试（如HumanEval、MBPP、BigCodeBench、LiveCodeBench、MBXP、NaturalCodeBench、Aider和CanItEdit）中，它保持了与先进自回归模型相当的竞争力，甚至在代码编辑任务上表现出显著提升。总而言之，Seed Diffusion通过将Diffusion模型的核心思想（从噪声中逐步去噪）应用于离散文本数据，并通过两阶段课程训练来优化其学习过程，同时结合策略性采样、块级并行推理以及Transformer架构的优势，成功克服了离散数据处理和迭代式推理速度慢的固有挑战，为代码生成领域带来了高速且高质量的解决方案。

08-03

09:06

Qwen团队：组序列策略优化算法GSPO

原文：Group Sequence Policy Optimization本来源介绍了组序列策略优化 (GSPO)，是一种用于训练大型语言模型的新型强化学习算法。该算法通过基于序列似然定义重要性比率并执行序列级剪辑、奖励和优化来解决现有算法（如 GRPO）在训练巨型模型时遇到的不稳定性问题。文章指出，GRPO 的不稳定性源于其令牌级重要性采样权重的错误应用，导致高方差训练噪声和模型崩溃。GSPO 则通过其序列级方法显著提高了训练的稳定性、效率和性能，特别是在 Mixture-of-Experts (MoE) 模型的强化学习训练中，消除了对复杂稳定策略的需求，并简化了强化学习基础设施的设计。

07-26

07:58

AI 智能体的上下文工程：来自Manus 经验分享

Manus 博客原文：AI代理的上下文工程：构建Manus的经验教训Manus 项目通过语境工程（Context Engineering）解决了AI智能体开发和运行中的多项关键挑战，并积累了宝贵的经验，这些经验对未来的AI智能体开发具有重要启示。以下是Manus项目通过语境工程解决的主要挑战及其具体做法：应对模型迭代周期慢和产品与底层模型耦合过深的问题：挑战：在早期的自然语言处理（NLP）中，模型需要经过数周的微调和评估才能适应新任务，这种缓慢的反馈循环对于快速迭代的应用是不可接受的。解决方案：Manus 选择押注语境工程，而非训练端到端的代理模型。这使得产品改进能够从数周缩短到数小时，并使产品独立于底层模型，就像“潮水上涨（模型进步），我们希望Manus是船，而不是扎根海底的柱子”。优化延迟和成本问题：挑战：AI智能体在每次迭代中上下文会不断增长，导致预填充（prefilling）与解码（decoding）的比率高度倾斜（例如Manus中输入与输出的令牌比约为100:1），这会显著增加延迟和推理成本。解决方案：围绕KV-缓存进行设计，提高KV-缓存命中率。具体实践包括：保持提示前缀的稳定：避免在系统提示开头包含动态时间戳，因为即使单个令牌的差异也可能使缓存失效。确保上下文仅支持追加：避免修改先前的动作或观察，并确保序列化过程是确定性的，以防止无意中破坏缓存。在需要时显式标记缓存断点：确保断点至少包含系统提示的结尾，并考虑缓存过期。在自托管模型时，确保启用前缀/提示缓存，并使用会话ID在分布式工作器之间一致路由请求。管理日益增长的动作空间和防止模型选择错误动作：挑战：随着智能体能力的增强，其动作空间（工具数量）会变得越来越复杂，模型更容易选择错误的动作或采取低效路径。动态添加或删除工具会导致KV-缓存失效和模型混淆。解决方案：采用“遮蔽而非移除”策略。Manus使用上下文感知的状态机来管理工具可用性，并通过在解码期间遮蔽令牌逻辑（token logits）来防止（或强制）选择特定动作。这可以通过响应预填充（response prefill）来实现，支持自动（Auto）、必选（Required）和指定（Specified）三种函数调用模式。此外，通过设计带有一致前缀的动作名称（例如，所有浏览器相关工具都以browser_开头），可以在不使用有状态逻辑处理器的情况下，轻松地在给定状态下强制智能体从特定工具组中进行选择。克服上下文窗口限制、性能下降和长输入的高成本：挑战：即使现代LLM提供大上下文窗口，但在实际智能体场景中仍可能不够用，且长输入成本高昂，模型性能在一定上下文长度后会下降。传统的截断或压缩策略会导致信息丢失，并且无法可靠预测未来关键的观察。解决方案：将文件系统作为终极上下文。Manus将文件系统视为无限大小、持久且可由智能体直接操作的外部化内存。模型学会按需写入和读取文件，将文件系统不仅作为存储，还作为结构化的外部化记忆。Manus的压缩策略都是可恢复的，例如，网页内容可以从上下文中删除，只要保留URL，文档内容可以省略，只要其路径在沙盒中可用。解决长期任务中目标漂移和“中间信息丢失”问题：挑战：在涉及平均约50次工具调用的复杂任务中，智能体容易偏离主题或忘记早期目标，尤其是在长上下文或复杂任务中。解决方案：通过“复述”操纵注意力。Manus会不断地重写和更新一个todo.md文件，逐步检查已完成的项目。这种“复述”行为将全局计划推送到模型的近期注意力范围，从而避免“中间信息丢失”问题并减少目标错位。这有效地利用自然语言来偏置模型的焦点，使其专注于任务目标，而无需特殊的架构更改。提高智能体的错误恢复和适应能力：挑战：智能体在多步骤任务中失败是常态，但常见的做法是隐藏错误（清理痕迹、重试或重置状态），这使得模型无法从错误中学习和适应。解决方案：“保留错误的尝试”。当模型看到失败的动作及其产生的观察或堆栈跟踪时，它会隐式地更新其内部信念，从而减少重复相同错误的机会。Manus认为错误恢复是真正智能体行为最清晰的指标之一。避免因上下文模式重复导致的过拟合和行为僵化：挑战：少样本提示（Few-shot prompting）在智能体系统中可能适得其反，因为语言模型擅长模仿上下文中的行为模式，这可能导致智能体陷入重复、漂移、过度泛化甚至幻觉。解决方案：增加多样性。Manus在动作和观察中引入少量结构化变体（例如，不同的序列化模板、替代措辞、顺序或格式上的微小噪声）。这种受控的随机性有助于打破模式，调整模型的注意力，防止智能体“陷入困境”。对未来AI智能体的启示：语境工程是智能体系统的核心：模型能力再强，也无法替代对记忆、环境和反馈的需求。智能体的运行速度、恢复能力和扩展性最终都取决于如何塑造其上下文。学习是一个实验性的科学过程：语境工程是一个“随机梯度下降”的过程——涉及架构搜索、提示调整和经验性猜测，它不是优雅的，但行之有效。文件系统作为通用上下文的潜力：将文件系统作为外部化记忆，提供无限大小和持久性，这对于处理大规模非结构化数据和长期的智能体任务至关重要。状态空间模型（SSM）的未来展望：如果SSM能够掌握基于文件的内存，将长期状态外部化而非保存在上下文中，那么它们的速度和效率可能解锁新型智能体，并有望成为神经图灵机的真正继任者。通过自然语言进行模型控制：通过不断将目标“复述”到上下文末尾，可以在不改变底层架构的情况下，使用自然语言来偏置模型的注意力和焦点。重视错误恢复能力：智能体在实际应用中会犯错，将失败的尝试保留在上下文中，让模型从错误中学习并适应，是衡量真正智能体行为的关键指标。学术界和基准测试应更加关注这一领域。避免“少样本陷阱”：过度统一的上下文会使智能体变得脆弱。通过引入多样性来打破重复模式，有助于智能体保持灵活性和适应性。真实世界测试的重要性：Manus的经验是经过数百万用户的真实世界测试积累的，这表明实际部署和用户反馈对于发现有效模式至关重要。总而言之，Manus项目的语境工程经验表明，AI智能体的智能不仅仅取决于底层模型的能力，更在于如何巧妙地管理和塑造其与环境交互的上下文。这就像一位经验丰富的船长，他不仅需要一艘坚固的船，更重要的是懂得如何利用风向、水流和海图（即上下文）来引导船只，即使面对风暴（错误）和复杂航线（任务），也能高效、稳定地抵达目的地。

07-24

11:15

Google 提出的新模型架构 MoR，Transformer 之外的一条新路径

Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation这篇研究论文介绍了Mixture-of-Recursions (MoR)，这是一个针对大型语言模型（LLMs）效率的新框架。MoR通过参数共享（重复使用一套共享层）和自适应计算（轻量级路由器动态分配不同递归深度给单个令牌）来降低计算和内存成本。该研究探讨了两种主要的路由策略——专家选择和令牌选择——以及两种键值（KV）缓存策略，以优化性能。实验结果表明，MoR在相同的计算预算下，显著提升了LLMs的验证困惑度和少量样本准确性，并实现了更高的推理吞吐量，证明其在降低大型模型成本方面是有效的。论文原文：https://www.alphaxiv.org/abs/2507.10524

07-20

07:07

vLLM凭什么这么快？揭秘大模型推理的内存与调度黑科技

vLLM 的速度优势并非简单的增量式改进或对个别算子的优化，而是源于对大语言模型推理这一根本问题的系统性重构。它将经典的操作系统设计哲学——如虚拟内存、分页管理和动态进程调度——创造性地应用于一个全新的领域，从而建立了一套全新的、为高吞吐量服务而生的架构蓝图。通过 PagedAttention，vLLM 将 GPU 显存从一块僵化的、连续的资源，转变为一个流动的、可灵活调度的块池，从根源上解决了制约并发能力的内存碎片化问题。在此基础上，连续批处理将推理范式从离散的、阻塞的“批处理”模式，转变为连续的、无阻塞的“流处理”模式，最大限度地压榨了 GPU 的并行计算潜力。

07-19

10:36

ZeroSearch: 激发LLM模型的搜索能力

本期论文：ZeroSearch: Incentivize the Search Capability of LLMs without SearchingZEROSEARCH 是一个新颖的强化学习（RL）框架，旨在提升大型语言模型（LLMs）的搜索能力，而无需与真实的搜索引擎交互。该框架巧妙地结合了强化学习、监督微调（SFT）和课程学习机制来优化 LLMs 的检索和推理能力。以下是 ZEROSEARCH 如何利用这些机制：强化学习 (RL)：ZEROSEARCH 采用强化学习来训练策略模型（policy model），以学习有效的搜索策略。RL 目标函数被设计用于最大化奖励，该奖励主要基于答案的准确性（使用 F1 分数衡量），同时通过 KL 散度惩罚来保持策略模型与参考模型的接近。ZEROSEARCH 通过奖励信号来激励模型进行多轮交互式推理和信息检索，直至得出最终答案。框架兼容多种 RL 算法，包括 Proximal Policy Optimization (PPO) 和 Group Relative Policy Optimization (GRPO)。实验表明 GRPO 在训练稳定性方面具有优势.为了稳定 RL 训练过程，ZEROSEARCH 对检索到的文档 token 应用了损失掩码（loss masking），确保梯度仅针对模型自身的输出计算，因为检索到的内容是由外部（模拟）生成而非策略模型直接控制. 监督微调 (SFT) 用于搜索模拟：ZEROSEARCH 的核心创新之一是使用一个经过监督微调的 LLM 来模拟真实搜索引擎。通过轻量级的 SFT 过程，模拟 LLM 能够响应搜索查询并生成文档。这个 SFT 过程利用了与真实搜索引擎交互收集的轨迹，根据轨迹是否产生正确答案将文档标记为有用或嘈杂。通过调整提示中的少量词语，经过微调的模拟 LLM 能够生成有用或嘈杂的文档。这种对文档质量的控制是 ZEROSEARCH 的一个重要优势。使用 LLM 进行文档生成消除了真实搜索引擎 API 的成本。基于课程的 Rollout 策略 (Curriculum-based Rollout)：在 RL 训练过程中，ZEROSEARCH 引入了一种基于课程学习的 rollout 机制，逐步降低生成文档的质量，以模拟越来越具挑战性的检索场景。这通过一个概率函数 pi 控制，该函数随着训练步骤的增加而增加生成嘈杂文档的可能性。这种“从易到难”的课程设置允许策略模型首先学习基本的输出格式和任务要求（使用较高质量的文档），然后逐渐适应更具挑战性和嘈杂的检索场景，从而逐步提升模型的推理能力。实验表明，标准课程设置（从易到难）的表现明显优于逆向课程设置（从难到易）。这些机制如何共同优化检索和推理？检索： SFT 使 LLM 能够模拟搜索引擎并生成相关文档。RL 训练激励策略模型学习何时以及如何生成有效的搜索查询（如 query ）来获取必要的信息。课程学习通过暴露模型于不同质量的文档，帮助其学习如何在有噪或低质量检索结果的情况下也能找到相关信息或进行有效推理。推理： ZEROSEARCH 使用多轮交互模板，明确将推理（...）与搜索分开。RL 训练激励模型在获取新信息后进行内部推理。课程学习通过增加检索场景的难度，迫使策略模型不断精炼其策略和推理能力，以在面对嘈杂或不完全信息时仍然能够得出正确答案。总结：通过使用经过 SFT 的 LLM 模拟搜索引擎，ZEROSEARCH 克服了使用真实搜索引擎进行 RL 训练的成本高昂和文档质量不可控的挑战。基于课程的 rollout 策略提供了一个结构化的训练环境，逐步提升模型处理复杂检索场景的能力。结合 RL 框架，ZEROSEARCH 有效地激励了 LLMs 的搜索和推理能力，并在多个数据集上展现出超越基于真实搜索引擎的方法的性能和更好的泛化能力。

05-08

07:47

View All on Castbox

Recommend Channels