five

zhaochenyang20/Video_MME_ci_25

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/zhaochenyang20/Video_MME_ci_25
下载链接
链接失效反馈
官方服务:
资源简介:
Video_MME_ci_25是Video-MME的一个25样本子集,作为更小的CI门控兄弟数据集。它包含25行数据,对应9个唯一的YouTube视频片段。数据集主要用于Qwen3-Omni Video-MME thinker-only CI测试,以确保在H200上以concurrency=4的配置下,单个CI运行时间不超过5分钟。数据集包含视频ID、持续时间、领域、子类别、URL、视频ID、问题ID、任务类型、问题、选项、答案和视频路径等信息。所有25行数据的持续时间为short,领域为Knowledge,与父数据集Video_MME_ci的前缀切片匹配,而非分层样本。

Video_MME_ci_25 is a 25-sample subset of Video-MME, curated as a smaller CI gate sibling dataset. It contains 25 rows of data corresponding to 9 unique YouTube clips. The dataset is primarily used for Qwen3-Omni Video-MME thinker-only CI testing to ensure that a single CI run fits comfortably under a 5-minute wall-clock budget at concurrency=4 on H200. The dataset includes information such as video_id, duration, domain, sub_category, url, videoID, question_id, task_type, question, options, answer, and video_path. All 25 rows are of duration=short and domain=Knowledge, matching the prefix slice of the parent Video_MME_ci dataset, not a stratified sample.
提供机构:
zhaochenyang20
搜集汇总
数据集介绍
main_image_url
构建方式
Video_MME_ci_25数据集源自Video-MME基准测试,作为其精简子集而构建。该数据集从zhaochenyang20/Video_MME_ci(含50个样本)中截取前25条记录,保留对应的9个独立YouTube视频片段。所有样本均以Parquet和JSONL格式存储,并附带统计文件描述视频时长、领域分布等元数据,确保数据结构的透明性与可复现性。
特点
该数据集聚焦于短时长(short)与知识领域(Knowledge)的单维度分布,并非分层抽样,因此适用于特定场景下的快速验证。其核心特色在于为Qwen3-Omni模型在H200硬件上提供了高效的持续集成测试支持,单次运行可在5分钟墙钟时间及并发数为4的条件下完成,显著提升了开发迭代效率。
使用方法
使用者可直接加载Parquet文件中的25条视频问答对,通过video_id字段关联本地视频文件进行推理。典型应用场景包括在sgl-project/sglang-omni仓库中运行测试脚本test_model/test_qwen3_omni_videomme_ci.py,以验证模型在知识类短视频上的基础表现。若需更广泛的分布覆盖,建议转向其父级50样本数据集。
背景与挑战
背景概述
视频多模态理解是人工智能领域的前沿研究方向,旨在让模型同步解析视频中的视觉与语义信息。Video_MME_ci_25数据集于近期由研究人员从Video-MME基准测试中精选而来,作为轻量级持续集成(CI)验证子集,服务于SGLang项目中的Qwen3-Omni模型测试。该数据集聚焦于知识领域内的短视频片段,包含25个问答对,每个样本涉及视频内容的理解与推理。其诞生背景源于大规模视频理解模型在快速迭代中对高效测试的需求,通过缩小规模实现5分钟内完成单次CI运行,极大提升了模型开发与部署的迭代效率。作为社区驱动的资源,它推动了视频多模态任务在自动化测试流程中的标准化,尤其为资源受限的开发者提供了低门槛的验证工具。
当前挑战
该数据集所解决的领域挑战在于视频多模态理解中模型性能评估的时效性与资源消耗问题。传统视频基准如Video-MME涵盖全量样本,但CI环境对运行时间有严格限制,导致全量测试在开发流程中不切实际。而Video_MME_ci_25通过构建仅25个样本的均匀切片(所有样本均为短时长、知识域),在保证基础覆盖的前提下,将单次推理时间压缩至5分钟内,同时支持高并发(如H200上并发4个)。构建过程中,主要挑战在于确保子集能够代表原始数据集的典型特征,而非随机抽样,以避免评估偏差。最终样本严格匹配父集的领域与时长分布,但牺牲了多样性,用户需谨慎将其用于全面性能评估。
常用场景
经典使用场景
作为视频多模态大模型持续集成(CI)阶段的轻量级评测子集,Video_MME_ci_25精选自大规模视频理解基准Video-MME,保留了9个独立的YouTube视频片段和25道涵盖知识类短时长视频的问答对。该数据集专为快速验证模型在视频理解、时序推理与多模态对齐方面的基础性能而设计,其紧凑的规模使得单个CI流程在H200上、并发数为4时,能在5分钟内完成测试,从而在不牺牲测试可靠性的前提下,显著提升开发迭代效率。
解决学术问题
该数据集精准回应了视频多模态模型在开发周期中缺乏高效、可复现的小规模验证基准这一核心痛点。传统的大型视频基准评测耗时耗力,难以融入频繁的CI流程,导致模型回归问题发现滞后。Video_MME_ci_25通过精心裁剪的数据分布与标准化的评估接口,使研究者能在极短的时间窗口内捕捉到模型在典型场景下的性能波动,填补了从大规模评测到研发流水线之间效率与可靠性兼顾的空白,为视频多模态领域的快速迭代提供了重要的基础设施支撑。
衍生相关工作
该数据集源于Video-MME这一大规模视频多模态评测基准,并作为其家族中的轻量化成员,与包含50样本的父级数据集Video_MME_ci形成递进式评测层次。其设计理念直接服务于SGLang-Omni等高效推理系统,体现了从通用基准向研发工具链转化的趋势。未来可基于类似思想衍生出面向不同视频长度、领域或任务类型的CI专用子集,进一步推动视频多模态研究在持续集成环境中的深度整合与自动化测试体系的建设。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作