Qwen团队：组序列策略优化算法GSPO

Update: 2025-07-26

Description

本来源介绍了组序列策略优化 (GSPO)，是一种用于训练大型语言模型的新型强化学习算法。该算法通过基于序列似然定义重要性比率并执行序列级剪辑、奖励和优化来解决现有算法（如 GRPO）在训练巨型模型时遇到的不稳定性问题。文章指出，GRPO 的不稳定性源于其令牌级重要性采样权重的错误应用，导致高方差训练噪声和模型崩溃。GSPO 则通过其序列级方法显著提高了训练的稳定性、效率和性能，特别是在 Mixture-of-Experts (MoE) 模型的强化学习训练中，消除了对复杂稳定策略的需求，并简化了强化学习基础设施的设计。

Comments

In Channel

通义深度研究：开源AI研究新范式

2025-09-2124:25

腾讯AI Lab的“角色中心”：十亿虚拟角色如何驱动AI生成数据

2025-09-1921:33

推理加速：RASD 和 REFRAG 深度解析

2025-09-1039:09

美团入局大模型：LongCat-Flash如何高效驱动智能体？深度解析MoE架构、零计算专家与数据飞轮

2025-08-3121:41

深度解析Intern-S1如何颠覆科研AI

2025-08-2425:03

超越自回归：并行文本生成技术如何加速大模型推理

2025-08-1812:23

大语言模型链式思维推理：是假象还是真实能力？

2025-08-0908:38

Seed Diffusion Preview: 来自字节 Seed 团队的高速推理代码语言模型

2025-08-0309:06

Qwen团队：组序列策略优化算法GSPO

2025-07-2607:58

AI 智能体的上下文工程：来自Manus 经验分享

2025-07-2411:15

Google 提出的新模型架构 MoR，Transformer 之外的一条新路径

2025-07-2007:07

vLLM凭什么这么快？揭秘大模型推理的内存与调度黑科技

2025-07-1910:36

ZeroSearch: 激发LLM模型的搜索能力

2025-05-0807:47

00:00

#box-pro-ellipsis-176048154987974{-webkit-line-clamp:2;}Qwen团队：组序列策略优化算法GSPO

Qwen团队：组序列策略优化算法GSPO

Qwen团队：组序列策略优化算法GSPO