Future Dynamic 3D Reconstruction: A 3D World Model with Disentangled Ego-Motion
对动态环境演化过程进行预测,对于自主智能体而言至关重要。尽管生成式世界模型近期通过在图像平面内融合自运动(ego-motion)与环境动态,已在二维视频合成中实现了极高的照片级真实感,但其仍存在物理不一致性问题,例如物体形变或消失,尤其在较长时间跨度的预测中更为显著。本文提出FR3D——一种可预测持久性三维潜在表征的世界模型,用于未来动态三维重建。不同于以往将世界建模为一系列基于图像特征序列的方法,FR3D明确地将场景的三维演化过程与智能体自身轨迹解耦,并将所推断出的自运动视为动作的潜在代理变量。这种解耦机制有效消除了自运动与环境运动之间的歧义,从而保障了未来预测结果在几何意义上的严格一致性。此外,我们引入了一种师生蒸馏策略,充分利用现成的基础模型所具备的空间“常识”先验知识,从而实现鲁棒的零样本泛化能力。大量实验表明,FR3D在多个数据集上,仅凭单目观测即可实现优异的未来动态三维重建性能,预测时间跨度可达2秒;项目主页:https://fr3d-wm.github.io。
Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification
统一多模态建模旨在将视觉理解与视觉生成整合于同一系统之中。然而,现有方法通常依赖两种彼此独立的视觉分词器(visual tokenizer),导致表征空间被割裂,从而阻碍了真正意义上的统一建模。为此,我们提出 UniAR——一种统一的自回归框架:该框架仅采用单一离散化视觉分词器,作为连接视觉理解与视觉生成的关键桥梁,从而构建共享上下文;在此上下文中,模型可直接解析自身生成的视觉词元(visual token),无需额外的重编码过程。UniAR 以预训练视觉编码器为基础,引入多层级特征融合机制与无需查表(lookup-free)的逐位量化(bitwise quantization)方案,在极低计算开销下,既保留高层语义信息,又兼顾底层细节,并有效扩展视觉词表规模。在此基础上,统一的自回归模型采用并行逐位预测(parallel-bitwise-prediction)策略,对空间上邻近、跨多个层级的视觉编码进行联合预测,显著缩短视觉序列长度,大幅提升生成速度。最后,基于扩散模型(diffusion-based)的视觉解码器直接作用于离散化视觉词元,重建高保真度图像。通过大规模预训练,辅以监督微调与强化学习优化,UniAR 在图像生成与图像编辑任务上达到当前最优性能,同时在多模态理解基准测试中亦保持强劲竞争力。项目主页详见:https://sharelab-sii.github.io/uniar-web。
Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement
部署在真实世界中的机器人应当能够从自身经验中学习,并随时间推移不断提升性能。这需要一种通过实践与反馈进行学习的机制。本文提出 VERITAS——一种面向通用型机器人策略的“生成器–验证器”框架,用于推理阶段的策略引导与自主优化。我们以一个预训练的通用型机器人策略作为“生成器”,并为其配备一个无需梯度计算的“视觉验证器”,该验证器在推理阶段对动作进行实时评估。该框架支持在推理阶段实施策略引导,在不增加额外训练的前提下提升策略性能。实验表明,相较于未经过额外演示数据训练的基线通用型策略,仅依靠推理阶段验证即可持续取得更优性能。此外,我们还证实:经验证器筛选出的轨迹可为离线策略优化提供高效监督信号;基于这些经验证的自生成轨迹进行微调后的策略,性能实现了稳定提升。尤为值得注意的是,仅通过验证轨迹开展的后训练,其效率可媲美专家示范数据训练,且全程无需人工干预。我们的研究结果表明,推理阶段验证是一种切实可行、可大规模推广的机制,能够在机器人实际部署过程中持续提升其策略性能。
Variable-Width Transformers
扩大模型规模——特别是增加深度和宽度——推动了基于Transformer的语言模型取得显著进展。然而,目前大多数架构均在所有层中保持恒定的宽度,即以固定且均匀的方式分配参数量与计算资源,尽管不同层级可能承担着差异化的计算功能。本文通过提出一种呈“×”形(即“><”形)的Transformer架构,从实证角度探究了在网络深度方向上进行非均匀容量分配的效果。该设计使模型的早期层与末期层更宽,而中间层则相对变窄,并借助一种无需额外参数的残差重缩放机制实现层间宽度的动态调整。在参数量从2亿到20亿(稠密模型)以及30亿(混合专家模型,MoE)的各类纯解码器语言模型上,我们的“><”形Transformer在语言建模损失方面始终优于参数量相匹配的均匀宽度基线模型。此外,由于降低了各层平均宽度,该架构整体所需浮点运算量(FLOPs)更少(在拟合的损失匹配缩放曲线下可减少22%),同时对键值(KV)缓存的内存占用与I/O开销也更小(降低15%)。进一步分析表明,这种“瓶颈式”结构会导致残差流(residual streams)中的表征呈现出质的差异。总体而言,我们的结果表明:采用非均匀的层宽度分配策略,有助于实现语言模型更具资源效益的规模化扩展。
MOCHI: Motion Enhancement of Collaborative Human-object Interactions
协作式人-物交互呈现出动态且复杂的运动模式,要求参与者与共享物体之间持续进行相互预判与实时调整。对这类协作式多人-物交互(MHOI)场景建模,高质量的数据采集是至关重要的基础环节;然而,由于MHOI本身固有的复杂性——即人与人之间、人与物体之间的交互同时发生——数据采集面临巨大挑战。这种复杂性导致所采集的MHOI数据普遍存在多种噪声与失真现象:手部与物体之间的接触位置错位、运动抖动以及序列在时间维度上的不一致性,以及手指级关节运动细节的缺失或不完整。为应对上述挑战,我们提出了MOCHI(Collaborative Human-object Interaction的Motion Enhancement,即“协作式人-物交互动作增强”),一种面向噪声MHOI数据的两阶段增强框架。本方法首先基于含噪的身体运动输入,通过优化生成物理上合理的手部抓握姿态,所得抓握姿态不仅符合物理规律,而且在语义层面与身体姿态保持一致;随后,将这些经优化的手部姿态扩展为完整的“手-物交互”时序序列。在此基础上,我们进一步借助基于扩散模型的噪声优化框架,利用单人运动先验知识,对所有参与者的全身运动进行联合精细化重构。在优化过程中,我们专门引入若干优化目标函数,以将人-物交互与人-人交互的信息显式编码进原本仅针对单人的运动先验中。实验结果表明,本方法在多种来源的MHOI数据上均展现出优异性能——无论数据来自现有动作捕捉技术,还是由生成式模型合成。我们还验证了该系统在参与者数量变化及交互类型差异下的鲁棒性,并展示了其在多个实际应用中的潜力,包括基于关键帧的MHOI内容创作,以及通过改变物体几何形状实现的数据增强。
EventDrive: Event Cameras for Vision-Language Driving Intelligence
事件相机通过异步感知亮度变化来感知世界,具有微秒级延迟与高动态范围,其运动保真度远超基于帧的传感器,且能捕捉传统曝光方式常常遗漏的时间结构信息。这些特性使事件数据成为自动驾驶中RGB图像的有力补充,尤其在存在运动模糊、强光眩光及快速运动等场景下,基于帧的感知方法往往变得不可靠。然而,当前已有的、具备事件感知能力的视觉-语言模型仍局限于通用感知任务,尚未揭示事件感知如何在整个驾驶闭环(从感知到决策)中支撑推理与决策过程。为此,我们提出了EventDrive——一个大规模基准测试集及配套模型体系,首次在四大核心维度(感知、理解、预测与规划)上统一融合事件流、RGB图像与语言监督信号,覆盖图像描述生成、结构化问答、跨模态定位、运动状态识别、轨迹预测以及驾驶规划等多样化任务。基于这一基础,EventDrive-VLM进一步引入了多时间尺度事件金字塔结构,以及一种时序尺度自适应的混合专家模块(temporal-horizon mixture-of-experts),以动态地编码并融合异步事件流与同步帧图像信息,从而支撑下游各项复杂推理任务。在各类任务上的系统性评测结果表明:事件流显著提升了模型在时间精度、运动感知能力与环境鲁棒性方面的表现,真正将事件感知推向了自动驾驶智能的核心位置。
EBench: Elemental Diagnosis of Generalist Mobile Manipulation Policies
我们提出了EBench——一个面向通用型移动操作策略的仿真评测基准,其评估维度超越了单一的成功率标量指标。EBench包含26个类型多样且富有挑战性的操作任务,并在5个能力维度和4个泛化维度上进行了精细标注。我们对当前最先进的通用型操作模型(包括$π_0$、$π_{0.5}$、XVLA和InternVLA-A1)进行了系统评测,结果表明:尽管这些模型的整体成功率相近,但其能力画像却存在显著差异——$π_{0.5}$在测试集上取得最高成功率,且训练集到测试集的性能保持能力最强;InternVLA-A1在移动操作任务上表现突出,但在灵巧操作任务上则完全失效;而XVLA相较于其他策略,则在一组互不重叠的基础原子技能上展现出独特优势。除能力画像分析外,EBench还从四个具有代表性的角度深入考察模型的泛化能力,并识别出不同分布偏移因素所造成的影响。该评测结果揭示了模型整体得分背后所隐藏的具体优势与短板。我们期望这一基准能够提供一套全面、多维的诊断信号,从而有效指导通用型操作模型的持续迭代与优化。
ReproRepo: Scaling Reproducibility Audits with GitHub Repository Issues
复现论文及公开代码中的研究成果,是推动科学进步的核心环节。现有研究虽已提出若干基准测试,用以评估大语言模型(LLM)智能体在辅助研究可复现性方面的能力,但这些基准因严重依赖人工进行数据整理与评估,难以大规模扩展。为此,我们提出 ReproRepo——一种可扩展的可复现性评估框架,其核心创新在于利用人类用户在 GitHub 上自发提交的问题(issues)作为天然监督信号,精准刻画现实世界中阻碍复现的真实障碍。我们将 ReproRepo 实例化应用于来自主流学术会议的 1,149 篇近期机器学习论文,并对四种前沿的大模型智能体配置展开系统评估。结果表明:即使不实际执行代码,LLM 智能体仍能从论文—代码仓库配对中识别出大量真实存在的可复现性问题;本研究中表现最优的智能体——即集成 GPT-5.5 的 Codex——能在约 90% 的论文样本中,至少发现一个语义上相关、且确由人类用户报告过的复现障碍。进一步分析显示,智能体在揭示“显性失败”(如报错信息、运行崩溃等)以及准确定位问题所属的语义范畴(例如数据预处理、超参设置或模型架构)方面尤为有效;但在精确到具体代码行或文件位置的细粒度定位上,仍有明显不足。ReproRepo 可作为一套可复用、可扩展的通用框架,支撑未来针对 LLM 智能体在真实世界可复现性审计任务上的持续评估。我们的全部代码已开源,地址为:https://github.com/LithiumDA/ReproRepo。
Sign-Rank, Index, and List Replicability: Connections and Separations
在学习理论中,二元概念类的符号秩(sign rank)刻画了该概念类能够被点集与半空间所表示的最小维度。尽管学界对此问题抱有极大兴趣,但为符号秩构造下界却 notoriously 极其困难。近期解决该问题的两种新方法,转而借助两类更易分析的度量来建立符号秩的下界:ℤ₂-指标(ℤ₂-index)与列表可复制性数(list replicability number)。 我们对这两类度量进行了排序,证明 ℤ₂-指标至多为列表可复制性数的一个线性函数。作为主要推论,我们得到了符号秩与 ℤ₂-指标之间的一个强分离结果,从而彻底解决了 Frick、Hosseini 与 Vasileuski 提出的一个公开问题。 这一结果促使我们对列表可复制性——二者中更强的下界度量——展开系统深入的研究。我们利用两类组合度量——高度(height)与最小星号数(minimum star number)——给出了列表可复制性数的上界;此外,我们还证明了一条基本的复合性定理:两个概念类的乘积类,其列表可复制性数至多等于这两个概念类各自列表可复制性数之和。
EvolveNav: Proactive Preflection and Self-Evolving Memory for Zero-Shot Object Goal Navigation
零样本目标导向导航(ZS-OGN)要求具身智能体在未经任何针对目标物体的先验训练前提下,自主探索环境并定位指定目标物体。为此,近期方法普遍借助基础模型,但通常仅依赖静态先验知识,缺乏在线适应能力,导致错误反复发生,试错成本高昂。本文提出一种可自我演化的零样本目标导向导航框架,支持智能体在测试阶段持续提升性能。具体而言,我们通过从历史轨迹中提取可执行知识,构建了一个具身化规则记忆模块;进而设计了一种基于上置信界(Upper Confidence Bound)的检索策略,在语义相关性与历史成功率之间取得平衡,从而动态筛选出最有效的导航规则;此外,我们还引入了一个受记忆引导的预反思(preflection)模块,在执行动作前对潜在结果进行预测,显著减少低效探索。大量实验表明,本方法全面超越现有零样本基线模型,在任务成功率上提升达10.1%,同时显著降低了冗余移动步数。