VideoEval-Pro

github2025-05-21 更新2025-05-23 收录

下载链接：

https://github.com/TIGER-AI-Lab/VideoEval-Pro

下载链接

链接失效反馈

官方服务：

资源简介：

VideoEval-Pro是一个稳健且现实的长视频理解基准测试，包含开放式、短答案问答问题。该数据集通过将来自四个现有的长视频理解多项选择基准测试（Video-MME、MLVU、LVBench和LongVideoBench）的问题重新格式化为自由形式的问题来构建。

VideoEval-Pro represents a robust and realistic long video understanding benchmark test, encompassing open-ended and short-answer question and answer scenarios. The dataset is constructed by reformatting questions from four existing long video understanding multiple-choice benchmarks (Video-MME, MLVU, LVBench, and LongVideoBench) into free-form questions.

创建时间：

2025-05-16

原始信息汇总

VideoEval-Pro 数据集概述

数据集简介

名称：VideoEval-Pro
类型：长视频理解评估基准
特点：包含开放式短答案问答问题，通过重构四个现有长视频理解多选题基准（Video-MME、MLVU、LVBench、LongVideoBench）的问题构建而成

数据内容

每个数据样本包含以下字段：

video：视频文件名（路径）
question：关于视频内容的问题
options：原始多选题选项
answer：正确的多选题答案
answer_text：正确的自由形式答案
meta：来自源基准的额外元数据
source：源基准名称
qa_subtype：问题任务子类型
qa_type：问题任务类型

数据获取

下载地址：https://huggingface.co/datasets/TIGER-Lab/VideoEval-Pro
下载方式： bash git lfs install git clone https://huggingface.co/datasets/TIGER-Lab/VideoEval-Pro

视频处理

合并视频分片： bash cat videos_part_*.tar.gz > videos_merged.tar.gz
解压视频： bash tar -xzf videos_merged.tar.gz

可选帧提取

目录结构：

frames_root/ ├── video_name_1/ │ ├── 000001.jpg │ └── ... └── ...

评估环境配置

bash git clone https://github.com/TIGER-AI-Lab/VideoEval-Pro cd VideoEval-Pro conda create -n videoevalpro --file *.yaml conda activate videoevalpro

评估运行

bash python tools/*_chat.py --video_root <path_to_videos> --frames_root <path_to_frames> --output_path <path_to_save_results> --using_frames <True/False> --model_path <model_name_or_path> --device <device> --num_frames <number_of_frames> --max_retries <max_retries> --num_threads <num_threads>

搜集汇总

数据集介绍

构建方式

在长视频理解领域，VideoEval-Pro通过创新性的重构方法构建了一个开放式的短问答评估基准。该数据集基于四个成熟的长视频理解多选题数据集（Video-MME、MLVU、LVBench和LongVideoBench）进行深度改造，将原始多选题转化为自由形式的问答对。每个数据样本包含视频路径、问题描述、原始选项、正确答案、自由形式答案文本以及来源标注等八项结构化字段，通过多维度元数据实现了对视频内容的细粒度标注。

特点

作为长视频理解领域的前沿评估工具，VideoEval-Pro展现出三大核心特征：其开放式问答形式突破了传统多选题的局限，更贴近真实场景的认知需求；覆盖视觉推理、时序理解等多元任务类型的标注体系，为模型能力评估提供了立体化维度；严格保留原始数据集的视频素材和问题内核，确保评估结果与既有研究具有可比性。数据集包含的丰富元信息为分析模型在不同子任务上的表现差异提供了可能。

使用方法

使用VideoEval-Pro需遵循标准化评估流程：通过HuggingFace平台获取数据集后，用户可选择直接处理视频文件或预提取帧序列以提升效率。评估环境配置支持多种视觉语言模型，通过参数化脚本实现灵活的评估设置。核心评估脚本提供视频根目录、帧序列路径、模型加载等十余项可配置参数，支持在CUDA设备上进行并行化推理。典型的评估过程涉及帧采样、多轮尝试机制等细节控制，最终生成结构化评估结果以供后续分析。

背景与挑战

背景概述

VideoEval-Pro是由TIGER-AI-Lab团队构建的长视频理解评估基准数据集，旨在推动开放域短答案问答任务的研究。该数据集通过重构四个现有长视频理解多选题基准（Video-MME、MLVU、LVBench和LongVideoBench）的问题形式，将其转化为自由回答格式，从而为视频内容理解提供了更贴近真实场景的评估框架。数据集包含视频文件路径、问题描述、原始选项、正确答案及自由文本答案等结构化字段，并标注了问题类型和来源基准等元信息，为多模态大模型在长视频理解任务上的性能评估提供了标准化测试平台。

当前挑战

在领域问题层面，VideoEval-Pro需解决长视频时序信息建模、跨模态对齐以及复杂语义推理等核心挑战，这对模型的场景理解深度和持续注意力机制提出极高要求。数据构建过程中，团队面临多选题向开放问答转换的语义保真度问题，需要确保重构后的问题保持原题意图；同时处理来自不同基准的异构数据时，需统一视频质量、时长分布和标注规范，这对数据清洗和标准化流程设计带来显著挑战。此外，大规模视频数据的存储与高效访问机制也是实际应用中的技术难点。

常用场景

经典使用场景

在视频理解领域，VideoEval-Pro数据集通过将多项选择题转化为开放式问答形式，为研究者提供了一个评估模型长视频理解能力的标准化平台。该数据集整合了四个主流视频理解基准的题目，涵盖了从简单动作识别到复杂事件推理的多样化任务类型，特别适合用于测试模型对长视频内容的深层语义理解和逻辑推理能力。研究人员可通过该数据集全面评估模型在时序信息处理、跨模态对齐和开放式问答生成等方面的表现。

实际应用

在实际应用层面，VideoEval-Pro的评估框架可直接迁移至智能监控、视频内容审核等工业场景。其开放式问答设计模拟了真实人机交互场景，有助于开发具备长视频摘要能力的智能助手。教育领域可基于该基准开发视频教学内容的自动问答系统，而医疗领域则能利用其长时序分析特性辅助手术视频理解。数据集提供的细粒度任务分类体系，为不同垂直领域的应用提供了定制化评估维度。

衍生相关工作

围绕VideoEval-Pro数据集，研究者已开展多项视频理解模型的创新工作。TIGER-Lab团队基于该基准提出了跨模态时序注意力机制，显著提升了长视频问答的准确率。后续研究如HierVL通过层级化视频表征学习，在复杂事件推理任务中取得突破。该数据集还催生了PromptVid等创新方法，探索了提示工程在视频理解中的应用。这些工作共同推动了视频语言模型从封闭式选择向开放式生成的范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集