ZeroSearch: 激发LLM模型的搜索能力
Update: 2025-05-08
Description
本期论文:ZeroSearch: Incentivize the Search Capability of LLMs without Searching
ZEROSEARCH 是一个新颖的强化学习(RL)框架,旨在提升大型语言模型(LLMs)的搜索能力,而无需与真实的搜索引擎交互。该框架巧妙地结合了强化学习、监督微调(SFT)和课程学习机制来优化 LLMs 的检索和推理能力。
以下是 ZEROSEARCH 如何利用这些机制:
- 强化学习 (RL):ZEROSEARCH 采用强化学习来训练策略模型(policy model),以学习有效的搜索策略。
RL 目标函数被设计用于最大化奖励,该奖励主要基于答案的准确性(使用 F1 分数衡量),同时通过 KL 散度惩罚来保持策略模型与参考模型的接近。
ZEROSEARCH 通过奖励信号来激励模型进行多轮交互式推理和信息检索,直至得出最终答案。
框架兼容多种 RL 算法,包括 Proximal Policy Optimization (PPO) 和 Group Relative Policy Optimization (GRPO)。实验表明 GRPO 在训练稳定性方面具有优势.
为了稳定 RL 训练过程,ZEROSEARCH 对检索到的文档 token 应用了损失掩码(loss masking),确保梯度仅针对模型自身的输出计算,因为检索到的内容是由外部(模拟)生成而非策略模型直接控制. - 监督微调 (SFT) 用于搜索模拟:ZEROSEARCH 的核心创新之一是使用一个经过监督微调的 LLM 来模拟真实搜索引擎。
通过轻量级的 SFT 过程,模拟 LLM 能够响应搜索查询并生成文档。
这个 SFT 过程利用了与真实搜索引擎交互收集的轨迹,根据轨迹是否产生正确答案将文档标记为有用或嘈杂。
通过调整提示中的少量词语,经过微调的模拟 LLM 能够生成有用或嘈杂的文档。这种对文档质量的控制是 ZEROSEARCH 的一个重要优势。
使用 LLM 进行文档生成消除了真实搜索引擎 API 的成本。 - 基于课程的 Rollout 策略 (Curriculum-based Rollout):在 RL 训练过程中,ZEROSEARCH 引入了一种基于课程学习的 rollout 机制,逐步降低生成文档的质量,以模拟越来越具挑战性的检索场景。
这通过一个概率函数pi
控制,该函数随着训练步骤的增加而增加生成嘈杂文档的可能性。
这种“从易到难”的课程设置允许策略模型首先学习基本的输出格式和任务要求(使用较高质量的文档),然后逐渐适应更具挑战性和嘈杂的检索场景,从而逐步提升模型的推理能力。实验表明,标准课程设置(从易到难)的表现明显优于逆向课程设置(从难到易)。
这些机制如何共同优化检索和推理?
- 检索: SFT 使 LLM 能够模拟搜索引擎并生成相关文档。RL 训练激励策略模型学习何时以及如何生成有效的搜索查询(如
query
)来获取必要的信息。课程学习通过暴露模型于不同质量的文档,帮助其学习如何在有噪或低质量检索结果的情况下也能找到相关信息或进行有效推理。 - 推理: ZEROSEARCH 使用多轮交互模板,明确将推理(
...
)与搜索分开。RL 训练激励模型在获取新信息后进行内部推理。课程学习通过增加检索场景的难度,迫使策略模型不断精炼其策略和推理能力,以在面对嘈杂或不完全信息时仍然能够得出正确答案。
总结:
通过使用经过 SFT 的 LLM 模拟搜索引擎,ZEROSEARCH 克服了使用真实搜索引擎进行 RL 训练的成本高昂和文档质量不可控的挑战。基于课程的 rollout 策略提供了一个结构化的训练环境,逐步提升模型处理复杂检索场景的能力。结合 RL 框架,ZEROSEARCH 有效地激励了 LLMs 的搜索和推理能力,并在多个数据集上展现出超越基于真实搜索引擎的方法的性能和更好的泛化能力。
Comments
In Channel