2025.10.14 | 量化误差变奖励，单卡训32B；面向多模态大模型的音视频评测基准

Update: 2025-10-14

Description

本期的 15 篇论文如下：

[00:23 ] 🚀 QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs（QeRL：超越效率——面向大语言模型的量化增强强化学习）

[01:22 ] 🧠 Diffusion Transformers with Representation Autoencoders（基于表示自编码器的扩散Transformer）

[02:12 ] 🎬 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs（OmniVideoBench：面向全向多模态大模型的音视频协同理解评测基准）

[02:41 ] 🔄 Latent Refinement Decoding: Enhancing Diffusion-Based Language Models by Refining Belief States（潜变量精化解码：通过精化信念状态增强基于扩散的语言模型）

[03:18 ] 🌊 RLFR: Extending Reinforcement Learning for LLMs with Flow Environment（RLFR：基于潜流环境扩展大模型强化学习）

[04:11 ] 🔍 Spotlight on Token Perception for Multimodal Reinforcement Learning（多模态强化学习中token感知的光束聚焦）

[04:50 ] 🎬 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration（AVoCaDO：面向时序编排的音视频联合字幕生成器）

[05:25 ] 🌐 DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training（DiT360：混合训练视角与全景数据的高保真全景图像生成）

[05:56 ] 🧠 Demystifying Reinforcement Learning in Agentic Reasoning（揭开强化学习在智能体推理中的神秘面纱）

[06:51 ] 🧮 Making Mathematical Reasoning Adaptive（让数学推理具备自适应性）

[07:26 ] 🛡 Building a Foundational Guardrail for General Agentic Systems via Synthetic Data（面向通用智能体的基础护栏：基于合成数据的预执行安全框架）

[08:05 ] 🧠 ACADREASON: Exploring the Limits of Reasoning Models with Academic Research Problems（ACADREASON：用学术研究问题探索推理模型的极限）

[08:43 ] 🎨 InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models（InternSVG：用多模态大模型统一搞定SVG理解、编辑与生成）

[09:23 ] 🧾 FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs（FinAuditing：面向LLM评估的财务分类多文档基准）

[10:09 ] 🧠 GIR-Bench: Versatile Benchmark for Generating Images with Reasoning（GIR-Bench：面向推理图像生成的多功能基准）

</figure>

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Comments

In Channel

2025.11.04 | 超稀疏MoE激活万亿参数；视觉模型看图胜GNN

2025-11-0411:06

2025.11.03 | OS-Sentinel实时守护手机操作安全；ThinkMorph让小模型边想边画

2025-11-0311:02

【月末特辑】10月最火AI论文 | 幼龙BDH稀疏可解释；迷你递归7兆碾压大模型

2025-11-0222:46

【周末特辑】11月第1周最火AI论文 | 循环模型省参强推理；Concerto 2D-3D自监督涨点

2025-11-0111:53

2025.10.31 | Emu3.5统一预测时空；扩散提示驱动机器人

2025-10-3110:09

2025.10.30 | 看图写码7B逆袭；视频思维RL破局

2025-10-3011:29

2025.10.29 | 通义深度研究报告；小模型折记忆胜671B巨模型

2025-10-2908:14

2025.10.28 | Point Transformer无标对齐长空间；代码递归统一粗细粒度

2025-10-2811:05

2025.10.27 | DeepAgent一步推理+ToolPO；视频即提示DiT秒控百种语义

2025-10-2710:29

【周末特辑】10月第4周最火AI论文 | 内部概率+投票剪尾，RPC省样本提精度

2025-10-2613:26

2025.10.24 | AdaSPEC挑40% token提速两成；AutoPage 10美分生成交互网页

2025-10-2410:39

2025.10.23 | 线性注意力显存降十倍；动态裁剪PPO稳提分

2025-10-2310:46

2025.10.22 | LightMem压缩记忆千倍提速12倍；闭环世界模型微调8万数据反超巨兽

2025-10-2211:14

2025.10.21 | 模型不懂光影折射；小模型也能写报告

2025-10-2110:06

2025.10.20 | RPC剪枝提速保准；OmniVinci小数据跨模态称王

2025-10-2011:11

【周末特辑】10月第3周最火AI论文 | 量化噪声变探索，单卡跑RL；冻结编码器放语义，DiT生成新纪录

2025-10-1813:30

2025.10.17 | AI眼镜预判式服务；视频生成补想象力

2025-10-1708:40

2025.10.16 | UniMoE一统语音音乐；注意力图点亮大模型推理

2025-10-1610:13

2025.10.15 | 像素级自监督ViT刷新生成基准；多智能体评测网文翻译新标尺

2025-10-1510:38

2025.10.14 | 量化误差变奖励，单卡训32B；面向多模态大模型的音视频评测基准

2025-10-1411:24

00:00

2025.10.14 | 量化误差变奖励，单卡训32B；面向多模态大模型的音视频评测基准

#box-pro-ellipsis-176236305508636{-webkit-line-clamp:2;}2025.10.14 | 量化误差变奖励，单卡训32B；面向多模态大模型的音视频评测基准

2025.10.14 | 量化误差变奖励，单卡训32B；面向多模态大模型的音视频评测基准

2025.10.14 | 量化误差变奖励，单卡训32B；面向多模态大模型的音视频评测基准