2025.10.28 | Point Transformer无标对齐长空间；代码递归统一粗细粒度

Update: 2025-10-28

Description

本期的 15 篇论文如下：

[00:23 ] 🎼 Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations（Concerto：2D-3D联合自监督学习涌现空间表征）

[01:06 ] 🧩 ReCode: Unify Plan and Action for Universal Granularity Control（ReCode：用递归代码统一规划与行动，实现通用粒度控制）

[01:44 ] 🤖 A Survey of Data Agents: Emerging Paradigm or Overstated Hype?（数据智能体全景透视：新范式还是泡沫？）

[02:23 ] 🌾 FARMER: Flow AutoRegressive Transformer over Pixels（基于像素流自回归变换器的可逆生成模型）

[03:07 ] 🤖 VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting（VITA-E：能同时看、听、说、做的自然具身交互框架）

[03:45 ] 🎭 Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation（前瞻锚定：在音频驱动人体动画中保持角色身份）

[04:17 ] 🤖 ACG: Action Coherence Guidance for Flow-based VLA models（面向流式VLA模型的动作连贯性引导）

[04:56 ] 🔍 $\text{E}^2\text{Rank}$: Your Text Embedding can Also be an Effective and Efficient Listwise Reranker（E²Rank：你的文本嵌入也能成为高效列表级重排器）

[05:40 ] 🌐 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences（全模态奖励模型：用自由格式偏好迈向通用奖励建模）

[06:30 ] 🔍 PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity（PixelRefer：任意粒度时空目标指代的统一框架）

[07:06 ] 🧠 Knocking-Heads Attention（敲头注意力：让多头彼此“敲一敲”）

[07:42 ] 🧩 IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction（IGGT：面向语义三维重建的实例锚定几何Transformer）

[08:30 ] 🎯 The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation（多选一最优：用max@k优化将强化学习与Best-of-N采样对齐）

[09:14 ] 🥯 LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation（LightBagel：面向统一多模态理解与生成的轻量级双重融合框架）

[09:51 ] 🧠 LimRank: Less is More for Reasoning-Intensive Information Reranking（LimRank：少即是多的推理密集型信息重排序）

</figure>

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Comments

In Channel

2025.10.29 | 通义深度研究报告；小模型折记忆胜671B巨模型

2025-10-2908:14

2025.10.28 | Point Transformer无标对齐长空间；代码递归统一粗细粒度

2025-10-2811:05

2025.10.27 | DeepAgent一步推理+ToolPO；视频即提示DiT秒控百种语义

2025-10-2710:29

【周末特辑】10月第4周最火AI论文 | 内部概率+投票剪尾，RPC省样本提精度

2025-10-2613:26

2025.10.24 | AdaSPEC挑40% token提速两成；AutoPage 10美分生成交互网页

2025-10-2410:39

2025.10.23 | 线性注意力显存降十倍；动态裁剪PPO稳提分

2025-10-2310:46

2025.10.22 | LightMem压缩记忆千倍提速12倍；闭环世界模型微调8万数据反超巨兽

2025-10-2211:14

2025.10.21 | 模型不懂光影折射；小模型也能写报告

2025-10-2110:06

2025.10.20 | RPC剪枝提速保准；OmniVinci小数据跨模态称王

2025-10-2011:11

【周末特辑】10月第3周最火AI论文 | 量化噪声变探索，单卡跑RL；冻结编码器放语义，DiT生成新纪录

2025-10-1813:30

2025.10.17 | AI眼镜预判式服务；视频生成补想象力

2025-10-1708:40

2025.10.16 | UniMoE一统语音音乐；注意力图点亮大模型推理

2025-10-1610:13

2025.10.15 | 像素级自监督ViT刷新生成基准；多智能体评测网文翻译新标尺

2025-10-1510:38

2025.10.14 | 量化误差变奖励，单卡训32B；面向多模态大模型的音视频评测基准

2025-10-1411:24

2025.10.13 | 桌面交互预训练解锁机器人潜能；统一模型赋予相机空间想象力

2025-10-1310:10

【周末特辑】10月第2周最火AI论文 | 递归小模型刷爆推理榜；未来经验点亮零奖励学习

2025-10-1211:39

2025.10.10 | 早期经验的Agent Learning；图文交错反思链跃升至24.9%

2025-10-1010:00

2025.10.09 | Ming-UniVision统一视觉词表；KV-Cache直连让大模型秒聊

2025-10-0911:46

2025.10.08 | TaTToo用外挂代码干翻大模型；4B小模型32步逼近闭源巨头

2025-10-0811:16

2025.10.07 | 论文秒变演讲；Video-LMM后训练突破

2025-10-0711:02

00:00

2025.10.28 | Point Transformer无标对齐长空间；代码递归统一粗细粒度

#box-pro-ellipsis-176182966333991{-webkit-line-clamp:2;}2025.10.28 | Point Transformer无标对齐长空间；代码递归统一粗细粒度

2025.10.28 | Point Transformer无标对齐长空间；代码递归统一粗细粒度

2025.10.28 | Point Transformer无标对齐长空间；代码递归统一粗细粒度