SciVideoBench

github2025-10-11 更新2025-10-12 收录

下载链接：

https://github.com/dengandong/SciVideoBench

下载链接

链接失效反馈

官方服务：

资源简介：

SciVideoBench是首个专门用于科学视频推理的综合基准数据集，涵盖物理、化学、生物和医学四个科学领域。该数据集包含240多个科学实验视频和1000个经过人工验证的多项选择题，支持概念推理、定量推理和假设推理等多种推理维度。每个问答对都标注了学科、主题、时间戳分解和原理说明，采用JSON/JSONL格式存储视频级元数据和问答注释。

SciVideoBench is the first comprehensive benchmark dataset specifically designed for scientific video reasoning, covering four major scientific disciplines: physics, chemistry, biology, and medicine. This dataset includes over 240 scientific experiment videos and 1,000 manually verified multiple-choice questions, supporting multiple reasoning dimensions such as conceptual reasoning, quantitative reasoning, and hypothetical reasoning. Each question-answer pair is annotated with discipline, topic, timestamp breakdown, and principle explanation, while video-level metadata and question-answer annotations are stored in JSON/JSONL formats.

创建时间：

2025-10-06

原始信息汇总

SciVideoBench 数据集概述

数据集简介

SciVideoBench是首个专门用于科学视频推理的综合性基准测试，专注于评估视频语言模型在科学实验场景中的表现。

核心特征

学科覆盖：涵盖物理学、化学、生物学和医学四个科学领域
数据规模：包含240+个科学实验视频和1000个经过人工验证的多项选择题
推理维度：
- 概念推理：理解原理和实验设置
- 定量推理：提取和推理测量值、数字和计算
- 假设推理：反事实和"假设"科学场景
丰富元数据：每个问答对都标注了学科、主题、时间戳分解和原理说明

数据结构

视频总数：240+个科学实验
问答对：1000个精心策划的多项选择题
数据格式：JSON/JSONL格式，包含视频级元数据和问答标注
标注内容：时间戳分解、原理说明、难度级别

评估结果

在基准测试中表现最佳的模型：

Gemini-2.5-Pro：总体准确率64.30%
Gemini-2.5-Flash：总体准确率46.40%
InternVL-3-78B：总体准确率38.50%

评估方法

与lmms-eval框架集成
支持标准化模型比较
提供任务YAML配置文件和工具脚本

许可信息

用途限制：仅限学术研究使用，严禁任何形式的商业用途
版权归属：所有视频版权归原始视频所有者和JoVE所有
访问要求：需要签署数据集访问协议
获取地址：https://huggingface.co/datasets/groundmore/scivideobench

引用信息

如需使用SciVideoBench，请引用相关论文。

搜集汇总

数据集介绍

构建方式

在科学实验视频理解领域，数据集的构建需兼顾多模态信息的整合与精细化标注。SciVideoBench通过系统化采集240余个涵盖物理、化学、生物与医学领域的实验视频，构建了包含千道多选题的基准数据集。其采用多阶段标注流程，由领域专家对视频内容进行时间戳分解与理性标注，确保每个问题均关联特定实验环节，并附有学科分类、主题标签及难度分级等元数据。

特点

该数据集以科学实验场景为核心，具备跨学科覆盖与多维度推理的显著特性。其问题设计涵盖概念性推理、定量分析与假设推演三大认知层次，能够全面评估模型对实验原理、数值计算及反事实场景的解析能力。每个问答对均配备精细化时间戳与学科标签，支持从微观操作到宏观原理的跨尺度分析，为科学视频推理研究提供了结构化评估框架。

使用方法

研究者可通过HuggingFace平台获取数据集后，依托lmms-eval评估框架进行标准化测试。数据集采用JSON/JSONL格式存储，包含视频元数据与标注信息。评估时需配置专用YAML任务文件与数据加载器，支持批量处理视频帧并生成多维度精度报告。使用前须签署学术用途协议，确保符合数据授权规范。

背景与挑战

背景概述

随着多模态人工智能技术的迅猛发展，科学视频理解成为新兴研究热点。2025年10月，科研团队正式推出SciVideoBench基准数据集，这是首个专注于科学视频推理的综合性评估平台。该数据集涵盖物理、化学、生物与医学四大基础学科，通过240余个实验视频和1000道经过人工验证的多选题，系统评估模型在感知细节、时序推理与跨模态整合等方面的能力。其创新性在于将视频语言模型的应用场景从通用领域延伸至需要精确推理的科学实验场景，为推进可解释性人工智能研究提供了重要基础设施。

当前挑战

科学视频推理面临双重挑战：在领域问题层面，模型需同时处理微观实验现象识别、多模态信号融合与长时序因果推理等复杂任务，现有方法在定量推理和假设推演维度表现尤为薄弱；在数据构建层面，科研团队需要克服专业标注资源稀缺、实验场景多样性不足等困难，通过设计分层标注体系与时间戳分解机制，确保数据集的科学严谨性与评估有效性。这些挑战共同推动着下一代多模态模型在科学认知维度的发展边界。

常用场景

经典使用场景

在科学实验视频理解领域，SciVideoBench作为首个专注于科学视频推理的基准测试集，其经典应用场景集中于评估多模态模型对物理、化学、生物及医学四大学科实验视频的深度解析能力。通过包含概念推理、定量分析与假设推演的三维评估框架，该数据集能够系统检验模型对实验装置功能识别、数据测量计算及反事实场景推断的精准度，为长视频时序推理研究提供了标准化测试环境。

实际应用

在现实应用层面，SciVideoBench为智能实验室辅助系统开发提供了关键支撑。基于其构建的模型可应用于实验操作实时指导系统，通过解析实验视频自动生成操作要点提示；在远程科学教育场景中，能够实现个性化实验视频内容解析与答疑；对于科研机构而言，该基准催生的技术可辅助研究人员快速检索特定实验片段，提升文献调研效率，同时为自动化实验记录分析系统的开发奠定基础。

衍生相关工作

该数据集的发布催生了系列创新研究，其中最具代表性的是基于lmms-eval框架开发的标准化评估流程，推动了多模态模型在科学领域的垂直优化。以Gemini-2.5-Pro为代表的模型在跨学科推理任务中展现出的卓越性能，启发了后续研究对专业领域知识注入机制的探索。同时，其构建的时序标注范式为Video-ChatGPT等视频对话系统的科学应用提供了改进方向，促使研究者设计更精细的跨模态对齐损失函数来提升模型对科学实验动态过程的理解能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集