ExpVid

github2025-10-15 更新2025-10-18 收录

下载链接：

https://github.com/OpenGVLab/ExpVid

下载链接

链接失效反馈

官方服务：

资源简介：

ExpVid是一个基准数据集，旨在系统评估多模态大语言模型在理解和推理真实世界科学实验视频方面的能力，特别关注复杂的湿实验室程序。该数据集包含来自13个科学学科的390个高质量实验视频和7,800个验证问答对，涵盖三个层次的任务：细粒度感知、程序理解和科学推理。

ExpVid is a benchmark dataset designed to systematically evaluate the capabilities of multimodal large language models (LLMs) in understanding and reasoning about real-world scientific experiment videos, with a particular focus on complex wet laboratory procedures. This dataset includes 390 high-quality experimental videos and 7,800 validated question-answer pairs from 13 scientific disciplines, covering three tiers of tasks: fine-grained perception, procedural understanding, and scientific reasoning.

创建时间：

2025-10-11

原始信息汇总

ExpVid 数据集概述

数据集简介

ExpVid 是一个专门用于系统评估多模态大语言模型在真实世界科学实验视频理解与推理能力的基准数据集，重点关注复杂的湿实验室操作流程。

核心特征

真实科学数据

数据来源：从同行评审的视频出版物（JoVE）中精选
覆盖范围：包含13个学科领域的390个高质量实验视频
科学严谨性：每个视频都关联相应的同行评审出版物，支持高级科学推理任务

三级任务层次结构

层级	关注重点	时间尺度	任务类型
Level 1：细粒度感知	基础元素的视觉定位	短片段（约8秒）	工具识别、材料识别、数量识别、操作识别
Level 2：流程理解	时间和逻辑序列推理	阶段片段（约48秒）	步骤排序、序列生成、完整性验证、步骤预测
Level 3：科学推理	视觉证据与领域知识整合	完整视频（约8分钟）	实验分析、科学发现（填空题）

视觉中心设计

标注流程确保问题需要视觉基础，模型不能仅依赖背景知识或文本线索回答正确问题。

数据集统计

总规模：7,800个经过验证的问答对
覆盖任务：10个任务，13个学科领域
时间尺度分布：
- Level-1：动作级片段，平均时长约8秒
- Level-2：阶段级片段，平均时长约48秒
- Level-3：完整实验，平均时长约8分钟

基准测试结果

评估了19个领先的多模态大语言模型（包括专有和开源模型）

性能摘要（顶级模型）

模型	L1（感知）平均分	L2（流程）平均分	L3（推理）平均分
人类基线（非专家）	37.6	42.1	N/A
GPT-5（专有）	53.3	57.5	56.4
Gemini-2.5 Pro（专有）	59.2	53.8	47.9
QwenVL2.5-78B（开源）	43.9	35.9	30.6
InternVL3-78B（开源）	50.9	41.9	37.7
Intern-S1（开源）	49.9	36.0	39.6

关键发现

专有模型在Level 3（科学推理）保持显著优势
所有模型在预测能力和完整性验证任务上表现较差
开源模型规模扩大能持续提升所有复杂度层级的性能
视觉输入对性能至关重要

数据获取

数据集在Hugging Face平台公开提供：https://huggingface.co/datasets/OpenGVLab/ExpVid

引用信息

bibtex @article{xu2025expvid, title={ExpVid: A Benchmark for Experiment Video Understanding & Reasoning}, author={Xu, Yicheng and Wu, Yue and Yu, Jiashuo and Yan, Ziang and Jiang, Tianxiang and He, Yinan and Zhao, Qingsong and Chen, Kai and Qiao, Yu and Wang, Limin and Okumura, Manabu and Wang, Yi}, journal={arXiv preprint arXiv:2510.11606}, year={2025} }

搜集汇总

数据集介绍

构建方式

在科学实验视频理解领域，ExpVid数据集通过精心设计的构建流程确保数据的严谨性。该数据集从经过同行评审的《JoVE》科学视频出版物中系统筛选出390个高质量实验视频，涵盖生物学、化学等13个学科领域。每个视频均关联原始学术论文，构建时采用三级任务分层框架：从8秒的动作片段到48分钟的阶段段落，最终整合为完整实验视频。通过视觉中心化标注策略，所有7,800组问答对均要求模型必须基于视觉证据进行推理，有效避免了单纯依赖文本线索的取巧行为。

特点

该数据集的核心特征体现在其多层次评估体系与真实科学场景的深度融合。三级任务架构模拟了科研工作的认知流程：基础感知层聚焦实验器具、操作动作的视觉识别；过程理解层强调步骤顺序与完整性的逻辑推演；科学推理层则要求结合领域知识进行实验分析与发现。视频平均时长从8秒到8分钟的动态跨度，精准对应了实验中微观操作与宏观过程的双重特性。所有数据均源自经过同行评议的学术资源，确保了科学严谨性与现实复杂性。

使用方法

研究人员可通过Hugging Face平台获取完整数据集资源，包括视频片段、语音转录文本及对应学术文献。评估流程采用标准化提示模板，用户需克隆项目代码库并安装指定依赖环境。通过运行分级评估脚本，可系统测试多模态大模型在三个层级任务上的表现。特别值得注意的是，该基准要求模型必须处理原始视觉输入，因此评估前需确认模型具备视频理解能力。数据集提供的详实标注信息支持从工具识别到科学发现的全链条能力验证。

背景与挑战

背景概述

随着多模态大语言模型在通用视频任务中展现出潜力，其在细粒度感知、长时序逻辑推理及科学语境理解方面的局限性逐渐凸显。ExpVid数据集于2025年由OpenGVLab等研究团队联合构建，旨在通过来自《JoVE》期刊的390个跨13个学科领域的实验视频，建立系统化的科学实验视频理解评估基准。该数据集通过构建三层任务体系——从微观动作识别到宏观科学推理，填补了真实实验室场景下多模态认知能力验证的空白，为推进人工智能在科研自动化领域的发展提供了关键基础设施。

当前挑战

在解决科学实验视频理解这一核心问题时，模型需应对三大挑战：细粒度视觉要素的精准定位、长时序操作流程的逻辑连贯性解析，以及跨学科背景知识的深度融合。数据集构建过程中，研究团队面临真实实验场景的复杂性挑战，包括实验工具与材料的视觉多样性识别、动态操作步骤的时序标注一致性维护，以及确保问答对必须依赖视觉证据而非文本线索的严谨性验证，这些因素共同构成了该领域技术突破的瓶颈。

常用场景

经典使用场景

在实验视频理解领域，ExpVid数据集为多模态大语言模型提供了系统评估框架，涵盖从微观操作识别到宏观科学推理的完整流程。其经典应用体现在模型需解析真实湿实验室视频中的工具操作、材料变化及步骤逻辑，通过三级任务层次模拟科学实验的递进认知过程，尤其擅长检验模型对长时序视觉信息的结构化理解能力。

衍生相关工作

基于ExpVid的基准测试已催生多项创新研究，如针对步骤预测任务的时序建模改进、融合科学知识图谱的多模态推理框架等。这些工作显著提升了模型在操作完整性验证、实验异常检测等任务上的表现，推动科学视频理解逐渐形成独立的研究方向。

数据集最近研究