凯时AG

2026-07-04 06:50:25 设为首页 | 加入珍藏

让多模态大模子学会带着时间思索：北大与华为团队开源TaRO框架

2026-07-04 06:50:25 宣布泉源：安卓网作者：朱志铭浏览：6441次

本文的第一作者为北京大学王选盘算机研究所博士生郑明航，，，通讯作者为助理教授刘洋。。。团队近年来在 TPAMI、CVPR、ICCV、ICML 等顶会上有多项代表性效果揭晓，，，并和海内外着名高校、科研机构普遍开展相助。。。

本文主要先容该团队和华为中央媒体手艺院在多模态视频明确与时序定位领域的最新研究效果。。。

该事情针对现有基于强化学习的视频大模子在推理历程中往往爆发肤浅推理，，，且无法为准确的时序定位提供有用指导的问题，，，提出了全新的时序感知推理优化（Temporal-Aware Reasoning Optimization，，，TaRO）训练框架。。。该要领显式地增强了模子带着时间思索的能力，，，在多个果真基准上取得了最先进的零样天性能。。。现在相关代码已开源。。。

论文问题：Temporal-Aware Reasoning Optimization for Video Temporal Grounding论文链接：https://arxiv.org/abs/2606.09248v1开源代码：https://github.com/oceanflowlab/TaRO项目主页：https://minghangz.github.io/publication/taro视频先容：https://www.youtube.com/watch?v=GJaodMUG9Vc

配景与念头

视频时序定位（Video Temporal Grounding, VTG）旨在凭证自然语言盘问，，，在未剪辑的视频中精准定位对应事务的起止时间段。。。近期，，，多模态大语言模子（MLLMs）连系强化学习（RL）在天生指导时序定位的推理路径方面展现出了重大潜力。。。然而，，，现有的强化学习要领天生的推理往往是肤浅的形貌，，，未能识别出回覆所需的特定视频证据。。。

如图 1（a）所示，，，本文对现有划分在带推理路径和直接输出谜底（无推理）两种设置下举行训练和推理，，，发明两者的性能险些没有差别。。。这一征象证实晰只管现有模子被训练举行推理，，，但这些天生的肤浅推理对最终的定位展望险些没有实质性孝顺。。。本文剖析了其背后的两大原因：

低效的随机探索机制。。。现有的强化学习范式在探索重大的视频推理空间时缺乏有用指导，，，盲目的随机睁开（random rollout）导致模子主要探索低质量的轨迹，，，进而爆发次优且肤浅的推理。。。忽视推理质量的奖励设计。。。目今的奖励函数主要关注最终谜底的准确性（如盘算 IoU），，，而完全忽略了推理历程自己的质量。。。这使得那些并不真正依赖视觉时序证据的推理路径也可能被强化，，，导致模子依赖虚伪相关性。。。

图 1：配景与念头

手艺方案

为了战胜上述挑战，，，本文提出了时序感知推理优化（TaRO）框架，，，旨在训练多模态大模子显式带着时间举行思索。。。如图 2 所示，，，TaRO 框架包括三个组件：

模板化推理探索（Constructive Reasoning Exploration）：为了提供高质量的初始指导，，，突破低效的随机探索，，，本文使用预先天生的带有明确时间戳的麋集视频字幕来构建推理轨迹。。。通过准时间顺序拼接采样后的字幕，，，模子可以学习到哪些视觉线索对定位至关主要，，，哪些是滋扰项，，，从而阻止了盲目探索。。。时序敏感度奖励（Temporal-Sensitivity Reward）：为了评估推理质量并确保其严酷锚定在准确的视觉片断上，，，本文设计了一种实例级的推理路径奖励机制。。。焦点头脑是：高质量的推理应该锚定在特定的事务和时间戳上，，，若是扰乱了真实事务界线周围的帧，，，这种推理应当失效，，，导致推理路径的概率（logit）下降。。。TaRO 使用这种概率下降作为奖励信号，，，强制模子天生与要害时间戳细密耦合的推理。。。渐进式课程学习（Progressive Curriculum）：TaRO 框架遵照渐进式的学习战略。。。在预热阶段，，，模子使用模板化探索数据举行学习，，，掌握怎样关注视觉线索并建设带着时间思索的范式。。。随后，，，模子过渡到自由探索阶段，，，在时序敏感度奖励的指导下，，，自主天生并完善其推理战略。。。

图 2：时序感知推理优化（TaRO）框架

实验效果

零样本视频时序定位性能：如表 1 所示，，，接纳 TaRO 框架训练的视频大模子在 Charades-STA、ActivityNet Captions、QVHighlights 和 TVGBench 四个果真基准测试上，，，周全逾越了现有的最先进要领。。。例如，，，使用 Qwen2.5-VL-7B-Instruct 作为基座模子时，，，TaRO 在 TVGBench 上的 R1@0.5 指标领先基线模子达 8.4%。。。

别的，，，TaRO 在较小的 Qwen2.5-VL-3B 模子和更新的 Qwen3-VL-8B 架构上也展现出了一致的性能提升，，，证实晰该要领的通用性。。。

表 1：零样本视频时序定位性能较量

长视频场景下的扩展能力：为了进一步验证 TaRO 在长视频上的体现，，，本文在两大长视频数据集上举行了零样本评测，，，包括 TACOS（平均长度 367 秒）和 Ego4D NLQ（平均长度 499 秒）数据集。。。如表 2 所示，，，在使用相同底座模子的情形下，，，接纳 TaRO 框架训练的视频大模子依然坚持了优异的性能，，，大幅领先现有基线要领。。。特殊是在 Qwen3-VL-8B 架构上，，，TaRO 带来了更显着的提升，，，例如在 TACOS 上 R1@0.3 提升了 13.7%，，，在 Ego4D NLQ 上 R1@0.3 提升了 8.7%。。。这证实晰基于时序感知的强化学习优化在面临长视频时的有用性和鲁棒性。。。

表 2：长视频时序定位性能较量

消融实验：表 3 验证 TaRO 各焦点设计的有用性。。。首先在纯随机探索的基线模子上，，，单独加入时序敏感度奖励（TR）使得 R1@0.5 从 61.1% 提升至 63.1%（第 1，，，2 行），，，证实晰时序敏感奖励的有用性。。。而若是仅在训练中让模子完全模拟外部结构的推理路径（CRE）而不举行后续的自由探索阶段（PC），，，模子的定位性能会泛起严重下滑（第 3，，，4 行）。。。这是由于测试阶段无法依赖外部字幕输入，，，模子必需内化自己的推理战略。。。而引入渐进式课程学习（PC）则填补了这一鸿沟，，，并实现了最优性能（第 5，，，6 行）。。。

表 3：消融实验

可视化效果：图 3 的可视化展示了 TaRO 在应对重大多模态场景时的体现。。。视频开头泛起了一个强滋扰项（女子用手擦脸），，，其视觉动态与文本盘问（用刷子擦脸）高度相似。。。TaRO 通过天生细粒度的中心时序推理，，，精准锚定了 19.0s 至 37.0s 的要害行动，，，并剔除了后续的无关片断，，，最终给出了准确的时序展望。。。

图 3：可视化比照

针对视频时序定位中多模态大模子推理流于外貌、缺乏真正时间感知的问题，，，本文推出了 TaRO 框架。。。通过引入模板化推理探索机制来高效指导模子带着时间思索，，，并使用时序敏感度奖励来量化推理质量，，，TaRO 乐成提升了多模态大模子的时序推理能力。。。大宗实验证实，，，该框架不但显著提升了模子推理的鲁棒性与可诠释性，，，更在多个果真基准上取得了最佳的视频时序定位性能。。。

2026年中国龙舟果真赛荆州站终结

责任编辑：陈坚顺校对：杨秉湖

今日热门

相关推荐

【网站地图】