SynRL

Name: SynRL
Creator: 浙江大学; 阿里巴巴集团·Qwen团队; 上海交通大学; 清华大学
Published: 2026-03-18 21:10:47
License: 暂无描述

arXiv2026-03-18 更新2026-03-20 收录

下载链接：

https://github.com/jiangsongtao/Synthetic-Video

下载链接

链接失效反馈

官方服务：

资源简介：

SynRL是由浙江大学与阿里巴巴团队联合开发的视频理解合成数据集，包含程序化生成的几何运动视频及其精确标注。该数据集包含14,700条样本（7,700条思维链样本和7,000条强化学习样本），通过Python代码生成30FPS的合成视频，并附带帧级元数据标注。数据创建过程采用物理模拟引擎追踪物体运动轨迹、速度变化和状态转换，确保时空标注的绝对准确性。该数据集专注于解决视频语言模型在时序推理（如运动方向判断、速度比较、状态跟踪等）中的核心挑战，显著提升了模型在15个视频理解基准任务上的表现。

SynRL is a synthetic video understanding dataset jointly developed by the team from Zhejiang University and Alibaba. It contains programmatically generated geometric motion videos and their precise annotations. The dataset includes 14,700 samples in total, with 7,700 chain-of-thought samples and 7,000 reinforcement learning samples. 30 FPS synthetic videos are generated via Python code, and are accompanied by frame-level metadata annotations. The data creation process uses a physics simulation engine to track object motion trajectories, velocity changes and state transitions, ensuring the absolute accuracy of spatio-temporal annotations. This dataset focuses on addressing the core challenges faced by video-language models in temporal reasoning tasks such as motion direction judgment, speed comparison and state tracking, and it significantly improves the performance of models on 15 video understanding benchmark tasks.

提供机构：

浙江大学; 阿里巴巴集团·Qwen团队; 上海交通大学; 清华大学

创建时间：

2026-03-18

原始信息汇总

Synthetic-Video 数据集概述

数据集基本信息

数据集名称: Synthetic-Video (SynRL)
关联论文: Learning Transferable Temporal Primitives for Video Reasoning via Synthetic Videos (CVPR 2026)
论文地址: https://arxiv.org/abs/2603.17693
项目主页: https://github.com/jiangsongtao/Synthetic-Video

核心目标

该数据集是一个用于视频推理的合成视频数据集，旨在通过程序生成的、带有真实标注的合成视频，教导视觉语言模型学习时间基元。时间基元是时间理解的基本构建块，包括方向、速度、加速度和状态跟踪。

关键特点

无专有模型依赖: 不依赖GPT-4V/Gemini进行数据合成，所有训练数据均通过程序生成，并带有可证明正确的标注。
高效性: 仅使用7.7K个合成思维链样本，其性能超越了Video-R1的165K个真实世界思维链样本，实现了21倍的数据效率。
广泛提升: 在15个基准测试中均取得一致性能提升，例如在RexTime（时间定位）上提升+12.6%，在TOMATO（复杂推理）上提升+4.6%。

方法概述

SynRL框架包含三个阶段：

程序化视频生成: 通过Python代码生成涵盖短期感知基元（速度、方向、轨迹、加速度）和长期认知基元（状态跟踪、回溯推理）的合成视频，并附带帧级元数据。
思维链增强: 采用一个四阶段流水线（生成→验证→反思→精炼）来生成基于过程元数据的高质量时间推理链。
两阶段训练:
- 监督微调：在7.7K个思维链样本上进行，以教导时间推理结构。
- 强化学习：在7K个合成视频-QA对上进行GRPO强化学习，使用可验证的准确率奖励。

训练数据构成

类别	数量	描述
合成思维链（用于监督微调）	6.7K	带有帧级标注的时间推理链
真实世界问答（用于监督微调）	1.0K	LLaVA-Video样本（仅答案，无思维链）
合成强化学习数据	7.0K	带有可验证奖励的视频-QA对

合成视频涵盖8个主要类别和18个子类别，包括碰撞计数、方向识别、轨迹识别、速度感知、基于网格的跟踪、符号操作、代码执行和容器管理。

性能结果

时间定位

NExTGQA mIoU: Qwen3-VL-4B模型提升+4.6（从23.5到28.1）。
RexTime mIoU: Qwen3-VL-4B模型提升+8.0（从20.9到28.9）。
Charades mIoU: Qwen3-VL-4B模型提升+5.1（从41.9到47.0）。

复杂推理与通用理解

TOMATO: Qwen3-VL-4B模型提升+4.6（从32.1到36.7）；Qwen3-VL-8B模型提升+4.9（从33.2到38.1）。
Video-TT: Qwen3-VL-4B模型提升+1.8（从38.9到40.7）；Qwen3-VL-8B模型提升+0.9（从40.6到41.5）。
MVBench: Qwen3-VL-4B模型提升+1.7（从65.4到67.1）；Qwen3-VL-8B模型提升+1.9（从67.2到69.1）。
VideoMME: Qwen3-VL-4B模型提升+1.1（从60.9到62.0）；Qwen3-VL-8B模型提升+1.8（从63.4到65.2）。

使用要求

硬件: 8张NVIDIA H100 GPU（80GB）。
软件: Python 3.10+。
框架: 需使用VeRL框架进行GRPO训练。

致谢与许可

致谢: 本工作基于Qwen3-VL（https://github.com/QwenLM/Qwen2.5-VL）和VeRL框架（https://github.com/volcengine/verl）。
许可证: 本项目基于Apache 2.0许可证发布。

搜集汇总

数据集介绍

构建方式

在视频理解领域，高质量时序标注数据的稀缺性长期制约着模型对动态事件的分析能力。SynRL数据集通过程序化生成合成视频的创新范式，系统性地构建了涵盖短期感知与长期认知原语的训练样本。其构建流程首先利用Python代码精确控制几何对象的属性与运动方程，模拟碰撞检测、轨迹追踪等物理过程，并自动记录帧级元数据；随后基于手写模板生成与视频内容严格对齐的问答对，并通过多模态大模型迭代生成思维链标注，再经由验证器确保推理过程与事件时间线的逻辑一致性，最终形成包含7.7K思维链样本与7K强化学习样本的高质量数据集。

特点

该数据集的核心特征体现在其内在的时序中心性与可验证的正确性。所有合成视频均经过精心设计，使得问题无法通过孤立关键帧回答，强制模型进行跨序列的时序整合与动态事件追踪。数据集将时序理解解构为方向识别、速度比较等短期感知原语，以及状态追踪、回溯推理等长期认知原语，覆盖8大类别18个子类别的多样化场景。尤为关键的是，程序化生成机制确保了标注的绝对正确性，避免了现有基于私有模型标注数据中普遍存在的系统错误，为模型学习提供了纯净且可靠的监督信号。

使用方法

SynRL数据集主要服务于视觉语言模型的时序推理能力后训练。其标准使用流程遵循两阶段训练策略：首先，利用数据集中提供的思维链样本进行监督微调，使模型习得逐步推理的显式结构；随后，基于合成视频问答对进行分组相对策略优化，通过可验证的准确性奖励引导模型提升推理的正确性。研究实践表明，即使仅在简单几何形状的合成视频上训练，习得的基础时序技能——如逐帧变化追踪与速度比较——也能有效迁移至涉及人类动作、相机运动等复杂现实场景，在时序定位、复杂推理及通用视频理解等15个基准测试上均能带来显著性能提升。

背景与挑战

背景概述

随着视觉语言模型从静态图像理解向动态视频理解的演进，模型需要掌握对运动轨迹、速度变化和状态转换等时序动态进行推理的核心能力。SynRL数据集由浙江大学、阿里巴巴集团等机构的研究团队于2026年提出，旨在解决现有视频后训练范式中的关键瓶颈。其核心研究问题在于如何不依赖存在系统性时序感知错误的专有模型，获取高质量、以时序为中心的训练数据，以教导模型学习方向、速度、状态追踪等基础时序基元。该数据集通过代码生成合成视频并附带精确的帧级标注，构建了约7.7K思维链样本和7K强化学习样本，为视频时序理解建立了一种全新的、高效可扩展的后训练范式，在时序定位、复杂推理和通用视频理解等15个基准测试上取得了显著性能提升。

当前挑战

SynRL数据集致力于解决视频时序理解这一核心领域问题的挑战，具体包括模型难以进行真正的时序整合，以及现有专有模型在基础时序感知（如混淆运动方向、误判速度）上存在系统性错误，导致生成的训练数据包含“流畅但错误”的推理模式。在数据集构建过程中，主要挑战在于如何设计并生成能够强制模型进行跨序列信息整合与动态事件追踪的、真正以时序为中心的视频问答对，同时确保所有标注的绝对正确性。研究团队通过程序化生成合成视频并利用代码衍生的元数据来保证标注的精确性，从而规避了依赖有缺陷的模型进行标注所带来的数据污染风险。

常用场景

经典使用场景

在视频理解领域，从静态图像识别转向动态时序推理要求模型掌握运动轨迹、速度变化等基本能力。SynRL数据集通过程序化生成的合成视频，为模型提供了学习时序基元（如方向、速度和状态追踪）的经典场景。这些合成视频虽然内容简单，仅包含几何形状的运动和状态变换，但其设计核心在于迫使模型进行逐帧分析和时序整合，而非依赖关键帧的静态模式匹配。该数据集常被用于视觉语言模型的后训练阶段，通过监督微调和强化学习，系统性地教授模型如何对短时运动感知和长时认知推理进行结构化思考。

解决学术问题

SynRL数据集主要解决了视频理解中两个关键的学术问题：一是现有数据缺乏时序中心性，许多问题仅凭单帧即可回答，模型无需进行真正的时序推理；二是依赖私有模型生成训练数据会引入系统性错误，例如错误描述运动方向或速度。该数据集通过代码生成保证标注绝对正确，并设计必须通过整合时序信息才能回答的问题，从而为模型提供了高质量、无噪声的监督信号。其意义在于确立了一种新的后训练范式，即通过精心设计的合成数据学习抽象的时序基元，这些基元能有效迁移到复杂真实场景，以远高于真实数据的数据效率提升模型的时序理解能力。

衍生相关工作

SynRL数据集及其框架启发并推动了视频时序理解领域的一系列相关工作。其核心思想——通过合成数据学习可迁移的时序基元——为后续研究提供了新思路。相关工作主要围绕几个方向展开：一是探索更高效的合成数据生成与课程学习策略，以迭代方式逐步增加视频时长和任务复杂度；二是将类似的合成数据范式应用于更专门的领域，如视频时序定位、工具增强推理和视频异常理解；三是对不同时序基元（空间vs.时序、短时vs.长时）的贡献进行解构分析，以更精细地理解模型能力提升的来源。这些衍生工作共同深化了对“通过合成数据学习时序推理”这一范式的认识与应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集