five

TVG-Cold-Start Dataset

收藏
github2025-07-24 更新2025-07-25 收录
下载链接:
https://github.com/zjuruizhechen/TVG-R1
下载链接
链接失效反馈
官方服务:
资源简介:
我们发布了由Gemini-2.5-Pro生成的完整56K Chain-of-Thought时间视频定位注释,可通过[TVG_raw_annotation](https://huggingface.co/datasets/RuizheChen/TVG_raw_annotation)访问。

本研究团队发布了由Gemini-2.5-Pro生成的完整56K条思维链(Chain-of-Thought)时序视频定位标注,可通过[TVG_raw_annotation](https://huggingface.co/datasets/RuizheChen/TVG_raw_annotation)获取。
创建时间:
2025-07-23
原始信息汇总

TVG-R1 数据集概述

数据集简介

  • 目的:增强大型视觉语言模型(LVLMs)在视频时间定位任务中的时间定位和推理能力。
  • 主要贡献:提供56K链式思维时间视频定位标注数据集。

数据集组成

原始标注数据

  • TVG_raw_annotation:包含56K由Gemini-2.5-Pro生成的链式思维时间视频定位标注。
    • 任务类型
      • 实例定位(Moment Retrieval):40K样本
        • 来源数据集:HiREST(4K)、QuerYD(33K)、TACoS(10K)、DiDeMo(33K)、InternVid-VTime(54K)
      • 查询定位(Query Grounding):16K样本
        • 来源数据集:Grounded-VLLM(16K)

处理后的数据

  • TVG_processed_data:包含处理后的冷启动和强化学习数据集。

原始视频数据

  • 来源
    • VideoMind-Dataset:https://huggingface.co/datasets/yeliudev/VideoMind-Dataset
    • Grounded-VideoLLM:https://huggingface.co/datasets/WHB139426/Grounded-VideoLLM
  • 数据集列表
    • DiDeMo、TACoS、QuerYD、HiREST(Grounding/Step Captioning)、InternVid-VTime、Grounded-VideoLLM

训练与评估

训练

  • 安装:通过init_Easy_R1.sh脚本初始化环境。
  • GRPO训练:使用TVG_R1.sh脚本进行训练。

评估

  • 基准数据集
    • ReXTime(Grounded VideoQA)
    • NExT-GQA(Grounded VideoQA)
    • Charades-STA(VTG)
  • 评估脚本evaluation.sheval_auto.py

引用

  • 论文引用信息暂未发布。
搜集汇总
数据集介绍
main_image_url
构建方式
TVG-Cold-Start数据集通过整合多个主流视频理解数据集构建而成,包括HiREST、QuerYD、TACoS等,覆盖了实例定位和查询定位两大任务。数据标注由Gemini-2.5-Pro完成,采用思维链(Chain-of-Thought)方法生成56K条高质量时序标注。原始视频数据来源于VideoMind和Grounded-VideoLLM等开源项目,通过标准化预处理脚本实现了多源数据的统一整合。
特点
该数据集以其大规模和多样性著称,包含40K实例定位样本和16K查询定位样本,涵盖了丰富的视频场景和语言查询组合。其独特之处在于采用强化学习框架下的时序视频定位任务设计,支持从冷启动到强化学习全流程的研究需求。数据集提供原始标注和处理后的结构化数据两种形式,并附带完整的视频下载与预处理方案,为视频时序推理任务提供了全面的基准支持。
使用方法
研究人员可通过Hugging Face平台直接获取处理后的数据集,或使用提供的脚本下载原始视频进行自定义处理。数据集配套完整的训练方案,基于EasyR1框架实现GRPO训练流程,包含初始化环境、模型训练和评估的完整命令行工具。评估阶段支持ReXTime、NExT-GQA等主流视频理解基准测试,通过自动化脚本可快速验证模型在时序定位任务上的表现。
背景与挑战
背景概述
TVG-Cold-Start Dataset由字节跳动与浙江大学的研究团队于2024年联合发布,旨在提升大规模视觉语言模型(LVLMs)在视频时序定位任务中的性能。该数据集整合了来自HiREST、QuerYD、TACoS等6个主流视频数据集的56K链式思维标注数据,通过Gemini-2.5-Pro生成细粒度时序标注,为视频时刻检索和查询定位任务提供了首个系统性冷启动解决方案。其创新性地采用强化学习框架,推动了跨模态时序推理领域的发展,成为评估模型时序理解能力的重要基准。
当前挑战
在领域问题层面,视频时序定位面临多模态对齐的固有难题,模型需精准关联动态视觉内容与复杂自然语言查询,尤其当视频包含长时程依赖或遮挡场景时,时序边界判定误差显著增加。数据集构建过程中,研究者需克服原始数据异构性挑战,包括不同源数据集间标注标准不统一、视频时长差异悬殊(从数秒到数十分钟),以及处理Gemini生成标注时存在的时序逻辑冲突问题。此外,为保持标注质量,团队开发了多阶段校验机制以消除大语言模型生成的幻觉标注。
常用场景
经典使用场景
TVG-Cold-Start Dataset在视频时序定位领域具有重要价值,其经典使用场景包括通过强化学习框架训练大型视觉语言模型(LVLMs),以提升模型在视频中精准定位特定时刻的能力。该数据集整合了来自多个主流视频数据集(如HiREST、QuerYD、TACoS等)的56K标注样本,覆盖实例定位和查询定位两大任务,为研究者提供了丰富的多模态训练资源。
衍生相关工作
该数据集已衍生出多项经典工作,包括VideoMind框架对多粒度时序定位的优化,以及Grounded-VideoLLM在视频问答任务中的迁移应用。相关研究进一步扩展至ReXTime视频问答基准和Charades-STA时序定位评测,推动了视频理解领域评估标准的统一化进程。
数据集最近研究
最新研究方向
在视频时序定位领域,TVG-Cold-Start Dataset作为一项创新性资源,正推动基于强化学习的大规模视觉语言模型(LVLMs)研究迈向新高度。该数据集整合了来自HiREST、QuerYD等多样化来源的56K链式思维标注数据,为模型在冷启动场景下的时序推理能力提供了关键训练支撑。近期研究聚焦于如何利用强化学习框架优化视频时刻检索与查询定位任务,特别是在处理长视频序列和复杂语义关联时提升时序边界的预测精度。这一方向与当前多模态理解的研究热点深度契合,为构建更具泛化能力的视频理解系统奠定了数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作