TVG-Cold-Start Dataset

github2025-07-24 更新2025-07-25 收录

下载链接：

https://github.com/zjuruizhechen/TVG-R1

下载链接

链接失效反馈

官方服务：

资源简介：

我们发布了由Gemini-2.5-Pro生成的完整56K Chain-of-Thought时间视频定位注释，可通过[TVG_raw_annotation](https://huggingface.co/datasets/RuizheChen/TVG_raw_annotation)访问。

本研究团队发布了由Gemini-2.5-Pro生成的完整56K条思维链（Chain-of-Thought）时序视频定位标注，可通过[TVG_raw_annotation](https://huggingface.co/datasets/RuizheChen/TVG_raw_annotation)获取。

创建时间：

2025-07-23

原始信息汇总

TVG-R1 数据集概述

数据集简介

目的：增强大型视觉语言模型（LVLMs）在视频时间定位任务中的时间定位和推理能力。
主要贡献：提供56K链式思维时间视频定位标注数据集。

数据集组成

原始标注数据

TVG_raw_annotation：包含56K由Gemini-2.5-Pro生成的链式思维时间视频定位标注。
- 任务类型：
  - 实例定位（Moment Retrieval）：40K样本
    - 来源数据集：HiREST（4K）、QuerYD（33K）、TACoS（10K）、DiDeMo（33K）、InternVid-VTime（54K）
  - 查询定位（Query Grounding）：16K样本
    - 来源数据集：Grounded-VLLM（16K）

处理后的数据

TVG_processed_data：包含处理后的冷启动和强化学习数据集。

原始视频数据

来源：
- VideoMind-Dataset：https://huggingface.co/datasets/yeliudev/VideoMind-Dataset
- Grounded-VideoLLM：https://huggingface.co/datasets/WHB139426/Grounded-VideoLLM
数据集列表：
- DiDeMo、TACoS、QuerYD、HiREST（Grounding/Step Captioning）、InternVid-VTime、Grounded-VideoLLM

训练与评估

训练

安装：通过init_Easy_R1.sh脚本初始化环境。
GRPO训练：使用TVG_R1.sh脚本进行训练。

评估

基准数据集：
- ReXTime（Grounded VideoQA）
- NExT-GQA（Grounded VideoQA）
- Charades-STA（VTG）
评估脚本：evaluation.sh和eval_auto.py。

引用

论文引用信息暂未发布。

搜集汇总

数据集介绍

构建方式

TVG-Cold-Start数据集通过整合多个主流视频理解数据集构建而成，包括HiREST、QuerYD、TACoS等，覆盖了实例定位和查询定位两大任务。数据标注由Gemini-2.5-Pro完成，采用思维链（Chain-of-Thought）方法生成56K条高质量时序标注。原始视频数据来源于VideoMind和Grounded-VideoLLM等开源项目，通过标准化预处理脚本实现了多源数据的统一整合。

特点

该数据集以其大规模和多样性著称，包含40K实例定位样本和16K查询定位样本，涵盖了丰富的视频场景和语言查询组合。其独特之处在于采用强化学习框架下的时序视频定位任务设计，支持从冷启动到强化学习全流程的研究需求。数据集提供原始标注和处理后的结构化数据两种形式，并附带完整的视频下载与预处理方案，为视频时序推理任务提供了全面的基准支持。

使用方法

研究人员可通过Hugging Face平台直接获取处理后的数据集，或使用提供的脚本下载原始视频进行自定义处理。数据集配套完整的训练方案，基于EasyR1框架实现GRPO训练流程，包含初始化环境、模型训练和评估的完整命令行工具。评估阶段支持ReXTime、NExT-GQA等主流视频理解基准测试，通过自动化脚本可快速验证模型在时序定位任务上的表现。

背景与挑战

背景概述

TVG-Cold-Start Dataset由字节跳动与浙江大学的研究团队于2024年联合发布，旨在提升大规模视觉语言模型（LVLMs）在视频时序定位任务中的性能。该数据集整合了来自HiREST、QuerYD、TACoS等6个主流视频数据集的56K链式思维标注数据，通过Gemini-2.5-Pro生成细粒度时序标注，为视频时刻检索和查询定位任务提供了首个系统性冷启动解决方案。其创新性地采用强化学习框架，推动了跨模态时序推理领域的发展，成为评估模型时序理解能力的重要基准。

当前挑战

在领域问题层面，视频时序定位面临多模态对齐的固有难题，模型需精准关联动态视觉内容与复杂自然语言查询，尤其当视频包含长时程依赖或遮挡场景时，时序边界判定误差显著增加。数据集构建过程中，研究者需克服原始数据异构性挑战，包括不同源数据集间标注标准不统一、视频时长差异悬殊（从数秒到数十分钟），以及处理Gemini生成标注时存在的时序逻辑冲突问题。此外，为保持标注质量，团队开发了多阶段校验机制以消除大语言模型生成的幻觉标注。

常用场景

经典使用场景

TVG-Cold-Start Dataset在视频时序定位领域具有重要价值，其经典使用场景包括通过强化学习框架训练大型视觉语言模型（LVLMs），以提升模型在视频中精准定位特定时刻的能力。该数据集整合了来自多个主流视频数据集（如HiREST、QuerYD、TACoS等）的56K标注样本，覆盖实例定位和查询定位两大任务，为研究者提供了丰富的多模态训练资源。

衍生相关工作

该数据集已衍生出多项经典工作，包括VideoMind框架对多粒度时序定位的优化，以及Grounded-VideoLLM在视频问答任务中的迁移应用。相关研究进一步扩展至ReXTime视频问答基准和Charades-STA时序定位评测，推动了视频理解领域评估标准的统一化进程。

数据集最近研究