CrossVid

github2025-11-20 更新2025-11-21 收录

下载链接：

https://github.com/chuntianli666/CrossVid

下载链接

链接失效反馈

官方服务：

资源简介：

CrossVid是第一个用于评估多模态大语言模型中跨视频推理能力的综合基准测试。与现有专注于单视频分析的基准不同，CrossVid挑战模型同时理解、聚合和比较多个视频中的信息。该基准包含9,015个问答对，涉及5,331个来自6个不同数据集的视频，涵盖10个特定任务，分布在4个维度（比较分析、时间理解、多视角推理和自由形式问答），覆盖32种现实世界场景类型，平均每个查询的视频时长达到770秒。

CrossVid is the first comprehensive benchmark for evaluating cross-video reasoning capabilities in multimodal large language models. Unlike existing benchmarks focused on single-video analysis, CrossVid challenges models to simultaneously understand, aggregate, and compare information across multiple videos. This benchmark contains 9,015 question-answer pairs, involving 5,331 videos sourced from 6 distinct datasets, covering 10 specific tasks distributed across 4 dimensions (comparative analysis, temporal understanding, multi-view reasoning, and free-form question answering), spanning 32 real-world scenario types, with an average video duration per query reaching 770 seconds.

创建时间：

2025-11-10

原始信息汇总

CrossVid 数据集概述

数据集简介

CrossVid 是首个用于评估多模态大语言模型跨视频推理能力的综合性基准。该基准挑战模型同时理解、聚合和比较多个视频中的信息。

核心特性

首创系统性跨视频推理基准，采用分层任务设计
9,015个问答对，覆盖5,331个视频，源自6个不同数据集
10个具体任务，涵盖4个维度（比较分析、时序理解、多视角推理、自由形式问答）
32种类型，覆盖真实世界场景
长上下文：每个查询平均770秒
多种格式：单选题、多选题和开放式问题

任务维度

比较分析

行为理解 (BU)
叙事理解 (NC)
烹饪比较 (CC)
程序错误分析 (PEA)

时序理解

情节推理 (PI)
功能步骤对齐 (FSA)
程序步骤排序 (PSS)

多视角推理

多视角空间推理 (MSR)
多视角物体计数 (MOC)

自由形式问答

比较性烹饪问答 (CCQA)

数据统计

指标	数值	指标	数值
视频数量	5,331	类型数量	32
问答对数量	9,015	任务数量	10
平均视频长度	215秒	平均查询时长	770秒

数据来源

视频来自6个公共数据集：

Animal Kingdom
MovieChat-1K
YouCook2
VisDrone
Charades
Assembly101

评估结果

在22个评估的MLLM模型中，表现最佳的是：

闭源模型：Gemini-2.5-Pro（总体平均准确率50.4%）
开源模型：GLM-4.1V-9B-Thinking（总体平均准确率35.1%）

使用方式

提供评估脚本支持使用OpenAI兼容API进行并行推理，支持vLLM、LMDeploy或SGLang等框架。

许可证

数据集视频来自公共数据集，需参考原始许可证。

联系方式

邮箱：chuntianli666666@gmail.com
GitHub：https://github.com/chuntianli666/CrossVid

引用

bibtex @misc{li2025crossvid, title={CrossVid: A Comprehensive Benchmark for Evaluating Cross-Video Reasoning in Multimodal Large Language Models}, author={Jingyao Li and Jingyun Wang and Molin Tan and Haochen Wang and Cilin Yan and Likun Shi and Jiayin Cai and Xiaolong Jiang and Yao Hu}, year={2025}, eprint={2511.12263}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2511.12263}, }

搜集汇总

数据集介绍

构建方式

在跨模态推理研究领域，CrossVid数据集的构建采用了系统化的标注流程。该流程首先通过Qwen2.5-VL-72B模型进行视频帧提取，随后利用DeepSeek-R1模型生成初步的问答对，再经过人工筛选与精细化处理，最终通过严格的质量控制环节确保数据可靠性。整个构建过程融合了六个公开数据集的5331个视频资源，涵盖动物行为、影视叙事、烹饪流程等32种现实场景，形成了跨越四个推理维度的9015组高质量问答对。

特点

作为首个系统化评估跨视频推理能力的基准数据集，CrossVid展现出多维度特性。其核心特征体现在层次化的任务设计上，包含比较分析、时序理解、多视角推理和自由问答四大维度下的十项具体任务。数据集覆盖770秒平均时长的长上下文场景，支持单选、多选与开放回答三种应答模式。视频素材来源广泛，从无人机航拍到家庭日常场景，构建了具有现实复杂性的评估环境。

使用方法

针对该数据集的应用，研究者可通过标准化评估流程实现模型性能验证。使用前需配置Python环境并下载视频与问答文件，按照指定目录结构组织数据。评估脚本支持基于OpenAI兼容API的并行推理，通过调整帧采样数量、线程数等参数优化计算效率。对于开放型任务采用大语言模型作为评判者的双维度评分机制，从覆盖度与准确度两个层面量化模型表现。整个过程通过命令行参数灵活控制输入输出路径与推理配置。

背景与挑战

背景概述

随着多模态大语言模型在视觉理解领域的快速发展，传统基准主要聚焦于单视频分析任务，难以评估模型在跨视频推理方面的能力。CrossVid作为首个系统性跨视频推理基准，由研究团队于2025年提出并被AAAI 2026接收，其核心研究问题在于探索多模态模型对跨视频信息的理解、整合与比较能力。该数据集整合了来自Animal Kingdom、MovieChat-1K等六个公共数据集的5,331个视频，构建了涵盖32种现实场景的9,015个问答对，通过设计比较分析、时序理解、多视角推理和自由问答四个维度的十项具体任务，显著推动了多模态推理研究向跨视频复杂场景的纵深发展。

当前挑战

在解决跨视频推理这一新兴领域问题时，模型需克服多源视频信息融合、长时序依赖建模以及跨模态对齐等核心挑战。具体而言，模型必须同时处理多个视频中存在的时空不一致性，准确捕捉跨视频的语义关联与差异。在数据集构建过程中，面临视频素材来源异构性带来的标注统一难题，需要设计复杂的标注流程确保问答质量。此外，长上下文处理成为关键瓶颈，单个查询平均涉及770秒的视频内容，对模型的长序列理解能力提出极高要求。多任务评估框架的建立也需平衡不同维度任务间的难度与代表性，确保评估结果的全面性与可靠性。

常用场景

经典使用场景

在跨模态人工智能研究领域，CrossVid数据集通过构建包含5,331个视频和9,015个问答对的基准测试，系统评估多模态大语言模型的跨视频推理能力。该数据集设计了涵盖比较分析、时序理解、多视角推理和自由问答的四维任务框架，要求模型同时处理多个视频片段中的信息并进行综合判断。典型应用场景包括让模型对比不同烹饪视频的操作差异，分析电影片段中的情节发展逻辑，或理解无人机视角下的空间关系，为模型跨视频认知能力提供标准化评估环境。

衍生相关工作

基于CrossVid基准已催生系列创新研究，包括针对长视频处理的层次化注意力机制、跨模态时序对齐算法等关键技术突破。Gemini-2.5-Pro等顶尖模型在其上的性能表现推动了多帧采样策略和视频表征学习的优化。开源社区相继提出GLM-4.1V-9B-Thinking等专用架构，通过思维链机制增强跨视频推理能力。这些衍生工作不仅完善了多模态模型的评估方法论，更促进了视频语言预训练、长序列建模等方向的理论创新与技术迭代。

数据集最近研究