Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

Update: 2025-10-27

Description

In this episode, we discuss Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset by Qingyan Bai, Qiuyu Wang, Hao Ouyang, Yue Yu, Hanlin Wang, Wen Wang, Ka Leong Cheng, Shuailei Ma, Yanhong Zeng, Zichen Liu, Yinghao Xu, Yujun Shen, Qifeng Chen. The paper presents Ditto, a comprehensive framework that generates large-scale, high-quality training data for instruction-based video editing by combining an advanced image editor with an in-context video generator. Ditto uses an efficient, distilled model with a temporal enhancer and an intelligent agent to ensure scalable, diverse, and high-fidelity video edits. Leveraging this framework, the authors created the Ditto-1M dataset and trained the Editto model, achieving state-of-the-art performance in following editing instructions.

Comments

In Channel

ARC Is a Vision Problem!

2025-12-0908:24

Solving a Million-Step LLM Task with Zero Errors

2025-12-0907:27

DataRater: Meta-Learned Dataset Curation

2025-12-0509:20

Mathematical exploration and discovery at scale

2025-11-1508:12

Kosmos: An AI Scientist for Autonomous Discovery

2025-11-1209:01

World Simulation with Video Foundation Models for Physical AI

2025-11-0809:47

Towards Robust Mathematical Reasoning

2025-11-0607:47

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

2025-11-0406:49

Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models

2025-10-2807:09

ImpossibleBench: Measuring LLMs’ Propensity of Exploiting Test Cases

2025-10-2707:39

Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

2025-10-2706:59

Reasoning with Sampling: Your Base Model is Smarter Than You Think

2025-10-2307:58

DeepSeek-OCR: Contexts Optical Compression

2025-10-2108:05

The Markovian Thinker

2025-10-1607:48

DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL

2025-10-0808:03

Towards a Physics Foundation Model

2025-10-0307:04

Scalable Option Learning in High-Throughput Environments

2025-09-3008:18

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

2025-09-2408:10

Reverse-Engineered Reasoning for Open-Ended Generation

2025-09-1908:39

Scaling Performance of Large Language Model Pretraining

2025-09-1606:58

00:00

Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

#box-pro-ellipsis-17655402551894{-webkit-line-clamp:2;}Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

agibreakdown

Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset