ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

Update: 2025-11-04

Description

In this episode, we discuss ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models by Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong. This paper introduces ProRL, a new reinforcement learning training method that uncovers novel reasoning strategies beyond those found in base language models. Empirical results show that models trained with ProRL consistently outperform base models on challenging reasoning tasks, including cases where base models fail even with extensive attempts. The study demonstrates that prolonged RL can meaningfully expand reasoning capabilities by exploring new solution spaces over time, advancing understanding of how RL enhances language model reasoning.

Comments

In Channel

ARC Is a Vision Problem!

2025-12-0908:24

Solving a Million-Step LLM Task with Zero Errors

2025-12-0907:27

DataRater: Meta-Learned Dataset Curation

2025-12-0509:20

Mathematical exploration and discovery at scale

2025-11-1508:12

Kosmos: An AI Scientist for Autonomous Discovery

2025-11-1209:01

World Simulation with Video Foundation Models for Physical AI

2025-11-0809:47

Towards Robust Mathematical Reasoning

2025-11-0607:47

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

2025-11-0406:49

Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models

2025-10-2807:09

ImpossibleBench: Measuring LLMs’ Propensity of Exploiting Test Cases

2025-10-2707:39

Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

2025-10-2706:59

Reasoning with Sampling: Your Base Model is Smarter Than You Think

2025-10-2307:58

DeepSeek-OCR: Contexts Optical Compression

2025-10-2108:05

The Markovian Thinker

2025-10-1607:48

DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL

2025-10-0808:03

Towards a Physics Foundation Model

2025-10-0307:04

Scalable Option Learning in High-Throughput Environments

2025-09-3008:18

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

2025-09-2408:10

Reverse-Engineered Reasoning for Open-Ended Generation

2025-09-1908:39

Scaling Performance of Large Language Model Pretraining

2025-09-1606:58

00:00

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

#box-pro-ellipsis-176552352758084{-webkit-line-clamp:2;}ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

agibreakdown

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models