DiscoverDaily LLM Papers美团入局大模型:LongCat-Flash如何高效驱动智能体?深度解析MoE架构、零计算专家与数据飞轮
美团入局大模型:LongCat-Flash如何高效驱动智能体?深度解析MoE架构、零计算专家与数据飞轮

美团入局大模型:LongCat-Flash如何高效驱动智能体?深度解析MoE架构、零计算专家与数据飞轮

Update: 2025-08-31
Share

Description

LongCat-Flash-Chat

LongCat-Flash 模型在架构设计、训练策略和推理部署方面引入了多项创新技术,使其在计算效率和智能体能力方面均表现出色。

模型架构创新和技术要点

LongCat-Flash 采用了一种新颖的 Mixture-of-Experts (MoE) 架构,其核心创新包括:

  • 零计算专家 (Zero-computation Experts):LongCat-Flash 引入了零计算专家机制,能够根据上下文需求动态分配计算预算。这意味着模型可以为重要的 token 激活更多参数,而对不重要的 token 减少计算,从而优化资源利用。
    在总共 5600 亿参数中,模型每个 token 平均激活约 270 亿参数,范围在 186 亿至 313 亿之间。
    通过由 PID 控制器调整的专家偏差来保持平均激活参数的一致性,确保专家间的负载平衡,并在相同的计算预算下实现优于传统 MoE 模型的性能。零计算专家本身不产生额外的计算成本,仅仅返回输入作为输出。
  • 快捷连接 MoE (Shortcut-connected MoE, ScMoE):ScMoE 架构通过引入跨层快捷连接,显著扩大了计算与通信的重叠窗口。
    这一设计允许前一个模块的密集前馈网络 (FFN) 计算与当前 MoE 层的分派/合并通信并行执行
    ScMoE 在训练和推理过程中都带来了显著的效率提升和高吞吐量。例如,在推理时,它实现了单批次重叠 (Single Batch Overlap, SBO) 流水线,理论上可将每输出 token 时间 (TPOT) 减少近 50%。
    实验证明,ScMoE 优化对模型质量没有负面影响,训练损失曲线与基线模型几乎相同,且其优势与模型规模和注意力机制的选择无关。
  • 可扩展性方差对齐设计 (Variance Alignment Design for Scalability)MLA 的尺度校正 (Scale-Correction for MLA):LongCat-Flash 改进了多头潜在注意力 (MLA) 机制,引入了尺度校正因子 (αq 和 αkv) 以解决非对称低秩分解中固有的方差不平衡问题,从而在模型扩展时提高收敛性和稳定性。
    专家初始化方差补偿 (Variance Compensation for Experts Initialization):针对细粒度专家策略中因专家分割导致的初始化方差降低,提出了方差补偿机制,通过缩放因子 γ 补偿门控稀释和维度降低效应,以保持 MoE 层的输出方差。
  • 模型配置 (Model Configurations):LongCat-Flash 包含 28 层(不包括 MTP 层),隐藏状态维度为 6144。
    每个 MLA 块使用 64 个注意力头,每个头维度为 128。
    每个层包含 512 个 FFN 专家和 256 个零计算专家,每个 token 激活 12 个专家。
  • 分词器 (Tokenizer):采用字节对编码 (BPE),对中文 (CJK) 字符分词进行了增强,并独立处理数字以提升数学能力。
    词汇量大小优化为 131,072 个 token。
  • 多 token 预测 (Multi-Token Prediction, MTP):作为辅助训练目标以提高推理效率,采用单层密集 MTP 头,在预训练后期实现了约 90% 的接受率。

训练策略与基础设施

LongCat-Flash 的训练采用了先进的策略和基础设施,以确保模型的可扩展性、稳定性和智能体能力。

  • 综合性扩展框架 (Comprehensive Scaling Framework):结合超参数迁移、模型增长初始化、多管齐下的稳定性套件和确定性计算,实现了稳定且可复现的训练。
  • 多阶段训练管线 (Multi-Stage Training Pipeline):通过精心设计的分阶段流程,培养了模型的智能体行为
    初期阶段构建适合智能体后训练的基础模型,处理推理密集型领域数据。
    中期训练增强推理和编码能力,并将上下文长度扩展至 128k
    在此基础上进行多阶段后训练,解决高质量、高难度智能体任务训练数据稀缺的问题。
  • 推理和部署优化:采用了模型-系统协同设计,显著提高了吞吐量和降低了延迟。
    在 H800 GPU 上实现每秒超过 100 个 token (TPS) 的推理速度,每百万输出 token 的成本仅为 0.70 美元
    利用 SBO 调度策略、推测解码(通过 MTP 作为草稿模型)和 KV 缓存优化等技术提高推理效率。
    系统级技术包括多步重叠调度器以最小化调度开销、定制化内核优化 MoE GEMM 的 SwapAB 技术、高效的通信内核以及细粒度块级量化策略。

智能体能力培养

LongCat-Flash 通过独特的多智能体数据合成框架和长上下文扩展,显著增强了其智能体能力。

  • 多智能体数据合成框架 (Multi-Agent Data Synthesis Framework):通过定义信息处理复杂性、工具集复杂性用户交互复杂性三个维度来生成需要迭代推理和环境交互的复杂任务。
    包含 UserProfileAgent, ToolSetAgent, InstructionAgent, EnvironmentAgent, RubricAgent, ValidatorAgent, DeduplicatorAgent 等专用智能体,确保数据的多样性、概念复杂性、领域覆盖率和问题质量。
  • 长上下文扩展 (Long Context Extension):采用两阶段策略将上下文窗口扩展到 128k tokens,并使用高质量长文本数据和结构化的代码仓库数据进行训练。
    在扩展过程中,通过数据混合策略确保模型通用能力保持稳定。
  • 推理和编码增强 (Reasoning and Coding Enhancement):通过检索预训练数据和数据合成相结合,优化数据质量和多样性,包括知识图谱遍历、多阶段迭代细化、双模态生成与验证等,以提升模型的数学和编码能力。
  • 指令遵循和安全 (Instruction Following and Safety):策划单轮和多轮指令遵循数据集,并构建批判数据集以增强模型的批判性思维。
    根据内部内容指南开发了全面的内容安全策略,对查询进行分类并生成符合安全标准的响应。

这些关键技术和架构创新共同赋予了 LongCat-Flash 在高效计算和复杂智能体任务处理方面的卓越能力和竞争优势。

Comments 
00:00
00:00
x

0.5x

0.8x

1.0x

1.25x

1.5x

2.0x

3.0x

Sleep Timer

Off

End of Episode

5 Minutes

10 Minutes

15 Minutes

30 Minutes

45 Minutes

60 Minutes

120 Minutes

美团入局大模型:LongCat-Flash如何高效驱动智能体?深度解析MoE架构、零计算专家与数据飞轮

美团入局大模型:LongCat-Flash如何高效驱动智能体?深度解析MoE架构、零计算专家与数据飞轮