longvideo_eval_videos

Hugging Face2025-07-20 更新2025-07-21 收录

下载链接：

https://huggingface.co/datasets/LongVideo-Reason/longvideo_eval_videos

下载链接

链接失效反馈

官方服务：

资源简介：

LongVideo-Reason数据集是一个为长视频推理任务设计的高质量数据集，包含了52K个针对长视频的问题-推理-答案对。该数据集分为训练集和测试集，其中训练集使用了18K个样本进行模型的推理和指令跟随能力初始化，以及33K个样本加上110K视频数据进行强化学习。这个两阶段的训练结合了高质量的推理注释和强化学习，使得LongVILA-R1能够在视频推理上取得优越且泛化的表现。此外，还手动整理了一个包含1K个长视频样本的平衡集，构建了一个新的基准LongVideo-Reason-eval，用于从时间、目标和目的、空间以及情节和叙事等四个角度全面评估性能。

创建时间：

2025-07-09

原始信息汇总

LongVideo-Reason-eval 数据集概述

数据集简介

名称: LongVideo-Reason-eval
用途: 用于评估长视频推理能力的基准测试集（仅限研究用途）
关联项目: Long-RL（将强化学习扩展到长序列的研究项目）

数据构成

样本数量: 1,000个长视频样本
评估维度:
- 时间维度（Temporal）
- 目标与目的（Goal and Purpose）
- 空间维度（Spatial）
- 情节与叙事（Plot and Narrative）
数据来源: 从Shot2Story项目中精选的18K长视频中人工筛选构建

使用方法

数据下载: 下载评估视频并解压至longvila_videos目录
评估脚本: 使用提供的eval.py脚本进行模型评估 bash python eval.py --model-path $MODEL_PATH --data-path LongVideo-Reason/longvideo-reason@test --video-dir $VIDEO_DIR --output-dir runs_${$MODEL_PATH}

引用信息

bibtex @misc{long-rl, title = {Long-RL: Scaling RL to Long Sequences}, author = {Yukang Chen, Wei Huang, Shuai Yang, Qinghao Hu, Baifeng Shi, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu,Hongxu Yin, Yao Lu, Song Han}, year = {2025}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/NVlabs/Long-RL}}, }

bibtex @article{chen2025longvila-r1, title={Scaling RL to Long Videos}, author={Yukang Chen and Wei Huang and Baifeng Shi and Qinghao Hu and Hanrong Ye and Ligeng Zhu and Zhijian Liu and Pavlo Molchanov and Jan Kautz and Xiaojuan Qi and Sifei Liu and Hongxu Yin and Yao Lu and Song Han}, year={2025}, eprint={2507.07966}, archivePrefix={arXiv}, primaryClass={cs.CV} }

注意事项

许可: 代码使用Apache 2.0许可证
限制: 仅限研究用途

搜集汇总

数据集介绍

构建方式

在长序列强化学习研究领域，LongVideo-Reason-eval数据集的构建体现了严谨的科研方法论。研究团队采用两阶段标注策略，首先通过NVILA-8B视觉语言模型与领先的开源推理大模型协同工作，生成52,000组高质量的视频问答推理三元组。其中18,000组样本用于监督式微调，33,000组样本结合110,000段视频数据用于强化学习训练。最终通过专家人工校验，精选1,000组具有代表性的长视频样本构建评估基准，确保数据在时间维度、目标意图、空间关系和叙事逻辑四个评估维度上的平衡性。

特点

该数据集最显著的特征在于其多维度评估体系的设计理念。评估样本覆盖视频理解的关键认知层面：时序关系捕捉、目标意图推理、空间结构解析以及情节叙事理解。每个视频样本均配备精细标注的问答对，问题设计注重考察模型的长程依赖处理能力。数据分布经过严格把控，避免评估偏差，为衡量模型在长视频理解任务中的综合表现提供了可靠的基准。

使用方法

使用该评估集时需遵循标准化的测试流程。研究者需将视频文件解压至指定目录结构，通过提供的评估脚本加载待测模型。脚本支持自定义模型生成函数以适应不同架构，测试结果将自动保存包含详细指标的评估报告。值得注意的是，评估过程要求模型处理原始长视频输入，而非预提取的特征，这能更真实地反映模型在实际场景中的视频理解能力。评估指标涵盖四个认知维度的细粒度表现分析。

背景与挑战

背景概述

由英伟达研究院（NVlabs）主导开发的longvideo_eval_videos数据集，是Long-RL项目的重要组成部分，旨在推动长序列视频理解与推理研究的发展。该数据集构建于2025年，核心团队包括Yukang Chen、Wei Huang等跨领域专家，其创新性体现在将视觉语言模型（VLM）与强化学习相结合，通过两阶段训练策略解决长视频推理的复杂性问题。数据集包含52K个高质量问题-推理-答案三元组，并特别设计了1K样本的评估基准LongVideo-Reason-eval，从时间、空间、叙事等四个维度建立综合评价体系，为视频理解领域提供了首个专注于长序列推理的标准化测试平台。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，长视频固有的时序跨度大、语义层次复杂等特性，使得传统视频理解模型难以捕捉跨镜头的逻辑关联与叙事意图；在构建过程中，如何平衡标注质量与规模成为关键难题，研究团队通过融合NVILA-8B视觉语言模型与开源推理大模型的能力，采用半自动化标注与人工校验相结合的方式，确保18K精标样本的推理准确性。此外，评估基准的设计需克服长视频多模态特征对齐的困难，团队创新性地引入四维评估框架，但如何建立更细粒度的评价指标仍是待解问题。

常用场景

经典使用场景

在长视频理解领域，longvideo_eval_videos数据集为研究者提供了一个标准化的评估基准。该数据集通过精心筛选的1K长视频样本，覆盖了时间推理、目标意图、空间关系以及情节叙事四个核心维度，为视频语言模型的性能评估提供了多维度的测试环境。研究者可利用该数据集验证模型在长序列视频理解任务中的表现，特别是在处理复杂时空关系和逻辑推理时的能力。

实际应用

在实际应用层面，该数据集支撑的视频理解技术可广泛应用于智能视频摘要、内容审核和交互式视频检索系统。基于其构建的模型能够理解长达数小时的视频内容语义，为流媒体平台的智能推荐系统提供深层内容分析能力。在安防监控领域，该技术可实现复杂事件的自动化识别与报告，显著提升监控系统的智能化水平。

衍生相关工作

围绕该数据集已衍生出多项创新研究，包括LongVILA系列视频语言模型和Flow-GRPO强化学习框架。相关研究通过两阶段训练策略结合高质量标注与强化学习，在长视频推理任务上取得突破性进展。这些工作不仅扩展了视频语言模型的上下文窗口处理能力，还为多模态大模型的训练范式提供了新的技术路线。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

longvideo_eval_videos

LongVideo-Reason-eval 数据集概述

数据集简介

数据构成

相关数据集

使用方法

相关研究

引用信息

注意事项