VideoMMMU|教育视频数据集|知识提取数据集
收藏Video-MMMU 数据集概述
数据集简介
Video-MMMU 是首个评估从教育视频中获取知识能力的多模态、多学科视频基准测试,旨在评估大型多模态模型(LMMs)从教育视频中学习新知识并应用于实践的能力。
数据集特点
1. 视频内容
- 视频数量:300 个讲座风格视频
- 覆盖学科:6 个专业领域(艺术、商业、科学、医学、人文、工程)
- 子学科数量:30 个
2. 问题设计
- 问题数量:900 个问答对(每个视频 3 个问答对)
- 认知层次:
- 感知:识别关键信息
- 理解:理解基本概念
- 适应:将知识应用于新场景
3. 评估指标
- Δknowledge 指标:量化模型从视频中学习后的性能提升 math Delta_{ ext{knowledge}} = frac{ ext{Acc}{ ext{after_video}} - ext{Acc}{ ext{before_video}}}{100% - ext{Acc}_{ ext{before_video}}} imes 100%
评估方法
- 评估框架:集成于 LMMs-Eval
- 评估任务:
- 整体评估(video_mmmu)
- 单轨道评估(感知、理解、适应)
- 知识获取实验(question_only 轨道)
数据集使用
-
安装: bash pip install lmms-eval
-
评估示例: bash accelerate launch --num_processes=1 --main_process_port 12345 -m lmms_eval --model llava_onevision --model_args pretrained=lmms-lab/llava-onevision-qwen2-7b-ov,conv_template=qwen_1_5,model_name=llava_qwen,max_frames_num=32,torch_dype=bfloat16 --tasks video_mmmu --batch_size 1 --log_samples --log_samples_suffix debug --output_path ./logs/
引用
shell @article{hu2025videommmu, title={Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos}, author={Kairui Hu and Penghao Wu and Fanyi Pu and Wang Xiao and Yuanhan Zhang and Xiang Yue and Bo Li and Ziwei Liu}, booktitle={arXiv preprint arXiv:2501.13826}, year={2025}, url={https://arxiv.org/abs/2501.13826} }

中国高考录取分数线数据
高考录取分数线,是指普通高等学校招生全国统一考试录取分数线。该分数线,每年高考结束后,由省级教育招生主管部门统计后公布。高考录取分数线分为本科线和专科线。全国各个地方的录取线分科类、分批次确定,科类一般分为文科类、理科类、音乐类(文、理)、美术类(文、理)、体育类等,每一科类又各分为提前批、第一批、第二批等等。 CnOpenData推出中国高考录取分数线数据,从批次、学校、专业等三方面汇总高考录取情况,涵盖生源地、学校所在地、年份、分类、批次、分科、分数线、学校、专业、录取人数、最高/低分等字段,为相关研究提供优质的数据资源。
CnOpenData 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录