NeurIPS 2025: Reward Reasoning Model

Update: 2025-11-29

Description

The source details the development and evaluation of Reward Reasoning Models (RRMs), which are designed to enhance Large Language Model (LLM) alignment by incorporating an explicit chain-of-thought reasoning process before generating a final reward. This innovative structure enables RRMs to adaptively utilize computational resources at inference time for complex evaluation tasks requiring nuanced judgment. The models are trained using a novel reinforcement learning framework that promotes the self-evolution of reasoning skills without requiring explicit reasoning traces as initial training data. Experimental results confirm that RRMs achieve superior performance across diverse reward modeling and reasoning benchmarks, often outperforming competing models with much larger parameter sizes. The document further validates the practical effectiveness of RRMs in tasks such as reward-guided best-of-N response selection and robust LLM post-training alignment. Overall, the work establishes a new state-of-the-art approach by demonstrating the scalable benefits of marrying reasoning capabilities with reward prediction.

Source: https://openreview.net/pdf?id=V8Kbz7l2cr

Comments

In Channel

PageANN: Scalable Disk ANNS with Page-Aligned Graphs

2025-12-0713:56

NeurIPS 2025: Homogeneous Keys, Heterogeneous Values

2025-12-0414:44

NeurIPS 2025: Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

2025-11-2914:43

NeurIPS 2025: Large Language Diffusion Models

2025-11-2912:39

NeurIPS 2025: Reinforcement Learning for Reasoning in Large Language Models with One Training Example

2025-11-2913:07

NeurIPS 2025: Parallel Scaling Law for Language Models

2025-11-2916:16

NeurIPS 2025: SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data

2025-11-2912:45

NeurIPS 2025: DYNAACT: Large Language Model Reasoning with Dynamic Action Spaces

2025-11-2915:24

NeurIPS 2025: KGGen: Extracting Knowledge Graphs from Plain Text with Language Models

2025-11-2913:38

NeurIPS 2025: Self-Adapting Language Models

2025-11-2911:57

NeurIPS 2025: Thinkless: LLM Learns When to Think

2025-11-2913:48

NeurIPS 2025: FlashBias: Fast Computation of Attention with Bias

2025-11-2914:11

NeurIPS 2025: A-Mem: Agentic Memory for LLM Agents

2025-11-2911:03

NeurIPS 2025: MoBA: Mixture of Block Attention for Long-Context LLMs

2025-11-2917:04

NeurIPS 2025: Reward Reasoning Model

2025-11-2917:32

Anthropic: Disrupting the First AI-Orchestrated Cyber Espionage Campaign

2025-11-2713:17

Anthropic: reward hacking & misalignment & sabotage

2025-11-2215:17

DeepSeek-OCR: Contexts Optical Compression

2025-11-2215:08

Neuromorphic computing: Brain-Inspired AI and Hardware

2025-11-2214:50

Meta: SAM 3

2025-11-2014:22

00:00

1.0x

NeurIPS 2025: Reward Reasoning Model

#box-pro-ellipsis-17651752713424{-webkit-line-clamp:2;}NeurIPS 2025: Reward Reasoning Model

NeurIPS 2025: Reward Reasoning Model

mcgrof

NeurIPS 2025: Reward Reasoning Model