ExpVid

Name: ExpVid
Creator: 上海人工智能实验室
Published: 2025-10-14 00:45:28
License: 暂无描述

arXiv2025-10-14 更新2025-10-15 收录

下载链接：

https://hf-mirror.com/datasets/OpenGVLab/ExpVid

下载链接

链接失效反馈

官方服务：

资源简介：

ExpVid是一个针对科学实验视频理解和推理的基准数据集，它涵盖了13个学科，主要关注湿实验室实验，例如生物学、化学和医学。数据集来源于JoVE（Journal of Visualized Experiments）的多学科、同行评审视频研究部分，通过自动语音识别（ASR）转录和相应的论文进行标注。ExpVid数据集包括约7800个问题-答案对，390个视频，平均视频长度为489秒。数据集构建了一个三级任务层次结构，分别对应于操作感知、过程理解和科学推理。通过自动化生成和多学科专家验证，确保了任务的视觉基础和领域真实性。ExpVid旨在评估多模态大型语言模型（MLLMs）在理解和推理真实实验室实验视频方面的能力，为发展能够感知、验证和推理真实实验的可靠助手或代理提供路线图。

ExpVid is a benchmark dataset for scientific experiment video understanding and reasoning. It covers 13 disciplines, with a primary focus on wet-lab experiments such as biology, chemistry and medicine. The dataset is sourced from the multi-disciplinary, peer-reviewed video research section of JoVE (Journal of Visualized Experiments), and is annotated using automatic speech recognition (ASR) transcripts and their corresponding academic papers. The ExpVid dataset includes approximately 7,800 question-answer pairs and 390 videos, with an average video duration of 489 seconds. It constructs a three-level task hierarchy corresponding to operation perception, process understanding and scientific reasoning respectively. The visual grounding and domain authenticity of the tasks are ensured through automated generation and multi-disciplinary expert validation. ExpVid aims to evaluate the capabilities of multimodal large language models (MLLMs) in understanding and reasoning about real-world laboratory experiment videos, providing a roadmap for developing reliable assistants or agents that can perceive, verify and reason about real experimental scenarios.

提供机构：

上海人工智能实验室

创建时间：

2025-10-14

搜集汇总

数据集介绍

构建方式

在科学实验视频理解领域，ExpVid通过严谨的多阶段流程构建而成。该数据集从经过同行评审的JoVE视频出版物中精心筛选，采用多维评分机制对自动语音识别转录本进行质量评估，仅保留连续性、对齐性、清晰度等五个维度均达标的实验视频。通过三级层次化处理流程，将原始视频分解为动作级片段、阶段级段落和完整实验视频，构建出7800个问答对组成的评估体系。这种结合自动化生成与多学科专家验证的标注方法，确保了数据集的科学严谨性和视觉中心性。

特点

ExpVid的显著特征体现在其独特的三级任务层次结构设计。该数据集涵盖从秒级单步感知到分钟级多步理解，再到跨工作流程的科学推理，完整模拟了科学家的实际工作模式。在细粒度感知层面，要求模型识别工具、材料、数量和精细操作；在程序理解层面，评估步骤排序、完整性验证和步骤预测能力；在科学推理层面，则需整合完整视频证据并关联发表论文得出结论。这种渐进式评估框架能够系统性地衡量多模态大语言模型在真实实验室环境中的综合能力。

使用方法

使用ExpVid进行模型评估时，需遵循其层次化评估框架。对于第一级任务，采用Top-1准确率衡量多选问答表现；第二级任务中，步骤排序和完整性验证使用准确率指标，序列生成则采用杰卡德相似系数评估；第三级填空任务通过轻量级语言模型比对预测答案与标准答案，计算空白级别准确率。评估时需注意帧数配置：第一级使用8帧，第二级32帧，第三级根据模型上下文窗口选择适当帧数。所有推理过程保持温度参数为0.1以确保结果稳定性，同时为每个模型分配8192个令牌以保证完整答案生成。

背景与挑战

背景概述

随着多模态大语言模型在科学发现领域的应用日益广泛，2025年上海人工智能实验室与东京科学研究所联合团队推出了ExpVid数据集，旨在系统评估模型对真实实验视频的理解能力。该数据集聚焦湿实验室环境下的生物、化学及医学实验，通过从《可视化实验期刊》筛选的390个经同行评审的视频构建三层任务体系，涵盖细粒度感知、流程理解与科学推理，为人工智能在实验辅助领域的可靠性提供了首个标准化评估基准。

当前挑战

ExpVid需解决实验视频中工具与材料在遮挡下的视觉区分、跨步骤状态追踪以及实验操作与科学结论的逻辑关联等核心难题。构建过程中面临三大挑战：一是需通过自动化标注与多学科专家验证确保视觉 grounding 的严谨性；二是设计语义与视觉双重重力干扰项以消除文本先验依赖；三是在长视频推理任务中平衡时序信息密度与模型计算效率的冲突。

常用场景

经典使用场景

在科学实验视频理解领域，ExpVid作为首个系统性评估多模态大语言模型的基准，其经典应用场景聚焦于对湿实验室环境中的操作流程进行层次化解析。该数据集通过构建三级任务体系——从微观层面的工具材料识别到宏观层面的科学推理，为模型提供了从短时感知到长程逻辑推演的完整测试框架，尤其适用于评估模型在真实科研场景中对复杂实验步骤的时序理解和因果关联能力。

衍生相关工作

ExpVid的发布催生了多模态科学推理研究的新方向。以Intern-S1为代表的领域专用模型通过在该数据集上的迭代优化，显著提升了科学术语的视觉接地能力；Gemini-2.5系列模型则借鉴其层次化任务设计，发展了针对长视频的科学叙事生成技术。后续研究进一步扩展了实验类型覆盖范围，在物理仿真实验与计算建模领域构建了新的评估范式，形成了以视觉推理为核心的科学实验分析技术体系。

数据集最近研究