PSVBench

Hugging Face2026-04-07 更新2026-04-08 收录

下载链接：

https://huggingface.co/datasets/DDDDeno/PSVBench

下载链接

链接失效反馈

官方服务：

资源简介：

PSVBench 是一个面向学术和教育视频问答的评估基准数据集，专门用于基准测试而非训练。数据集包含多个领域的内容，如生物学、数学、化学、物理学、医学以及多个顶级学术会议（如NeurIPS、ICML、ICLR、CVPR、ECCV、ACL）的视频。每个样本包含问题ID、任务标签、子任务标签、视频路径、转录文本路径、黄金时间窗口、四选一选择题及其正确答案。部分样本还包含幻灯片图像。数据以JSON格式存储，每个记录包含id、task、sub_task、video_path、transcript_path、gold_window、question、options和answer字段。该数据集仅用于评估，且部分样本可能缺少幻灯片材料。用户需自行检查上游来源的使用条款和限制。

创建时间：

2026-04-07

原始信息汇总

PSVBench 数据集概述

数据集基本信息

数据集名称：PSVBench
主要用途：专用于评估学术与教育视频问答任务，仅用于基准评测，不用于训练。
许可协议：cc-by-nc-4.0
任务类别：视频分类、问答
任务ID：多项选择问答

数据集内容与结构

核心数据文件：qa/eval.json
数据格式：JSON列表，每个记录包含以下字段：
- id：问题ID
- task：任务标签
- sub_task：子任务标签
- video_path：视频文件路径（相对于仓库根目录）
- transcript_path：转录文本文件路径（相对于仓库根目录）
- gold_window：黄金时间窗口
- question：问题文本
- options：4项多项选择选项
- answer：正确答案
涵盖领域与来源：生物学、数学、化学、物理、医学、NeurIPS、ICML、ICLR、CVPR、ECCV、ACL。
附加材料：部分样本在其媒体目录中包含幻灯片图像。

仓库结构

psvbench/ ├── README.md ├── qa/ │ └── eval.json └── data/ ├── biology/ ├── math/ ├── chemistry/ ├── physics/ ├── medicine/ ├── neurips/ ├── icml/ ├── iclr/ ├── cvpr/ ├── eccv/ └── acl/

限制与注意事项

该数据集仅用于评估目的。
幻灯片材料仅适用于部分样本。
用户需自行检查上游来源的条款和使用限制。
若上游内容存在额外限制，则以该等限制为准。

搜集汇总

数据集介绍

构建方式

在学术与教育视频理解领域，PSVBench的构建聚焦于多学科知识整合与严谨的评估需求。该数据集通过系统采集来自生物学、数学、化学、物理学、医学及多个顶级学术会议（如NeurIPS、ICML、CVPR等）的视频内容，并配以逐字稿文本。每个样本均标注了时间窗口、多项选择题及其正确答案，形成了结构化的问答对，旨在精准评估模型对视频中时序与语义信息的理解能力。

使用方法

使用PSVBench时，研究者可通过加载qa/eval.json文件获取全部评估样本。每个样本包含视频路径、文本转录、问题及四项选择题，模型需基于视频与文本信息预测正确答案。评估过程应严格遵循数据集的时序与多模态设定，并注意部分样本的幻灯片资源可用性。由于数据集仅用于评测，用户需独立处理视频数据并遵守原始内容的许可协议。

背景与挑战

背景概述

随着多媒体教育资源的普及和学术视频内容的快速增长，如何从这些视频中精准提取并理解知识成为人工智能领域的重要研究方向。PSVBench作为一个专注于学术与教育视频问答的评估基准，由研究团队于近期创建，旨在系统评估模型在跨学科视频内容上的问答能力。该数据集涵盖了生物学、数学、化学、物理学、医学以及顶级学术会议如NeurIPS、ICML、ICLR、CVPR、ECCV和ACL等多个领域的视频材料，通过提供问题、答案选项及时间窗口标注，推动视频理解与多模态推理技术的发展，对教育技术和学术内容分析领域产生了积极影响。

当前挑战

PSVBench所针对的领域挑战在于学术视频问答的复杂性，这要求模型不仅需理解视觉与文本信息，还需进行时序推理和跨模态对齐，以准确回答涉及专业知识的多元选择题。在构建过程中，数据集面临多重挑战：视频来源的多样性和学科广度导致数据收集与标注需兼顾准确性与一致性；时间窗口的精确标注依赖于对视频内容的深入理解，增加了人工标注的难度；同时，部分样本缺少幻灯片图像等辅助材料，可能限制模型的多模态学习效果。这些挑战共同凸显了在真实学术场景下构建高质量评估基准的艰巨性。

常用场景

经典使用场景

在学术视频理解领域，PSVBench作为评估基准，其经典使用场景集中于多模态问答系统的性能评测。该数据集通过提供涵盖生物学、数学、化学、物理学、医学及顶级学术会议视频的多样化内容，支持研究者对模型在复杂教育视频中定位关键信息并回答多项选择题的能力进行标准化测试。每个样本包含视频路径、转录文本、黄金时间窗口及四选一问题，使得评估过程能够精确衡量模型对视频时序逻辑与内容细节的掌握程度。

解决学术问题

PSVBench主要解决了视频问答领域缺乏高质量、跨学科评估基准的学术研究问题。传统视频数据集往往局限于单一领域或简单描述性任务，而PSVBench整合了多学科学术内容与结构化问答，为衡量模型在理解教育视频中的概念演进、逻辑推理及细节提取能力提供了统一框架。其意义在于推动了多模态学习模型向更深层次语义理解发展，促进了跨领域知识融合与评估方法的标准化，对提升学术视频智能处理技术的可靠性与泛化性产生深远影响。

实际应用

在实际应用层面，PSVBench为在线教育平台、学术资源库及智能辅导系统的开发提供了关键评估工具。基于该数据集的评测能够帮助优化视频内容检索系统，使其更精准地定位教学视频中的知识点片段；同时，它支持构建自适应学习助手，通过分析视频中的逻辑演进与概念关联，为学习者提供个性化问答支持。这些应用不仅提升了教育资源的可访问性与利用效率，也为专业培训、学术研究中的视频知识管理提供了技术基础。

数据集最近研究