five

Video-MME - 视频分析多模态大模型评估基准数据集|视频分析数据集|多模态评估数据集

收藏
github2024-06-10 收录
视频分析
多模态评估
下载链接:
https://github.com/BradyFU/Video-MME
下载链接
链接失效反馈
资源简介:
Video-MME是北京大学、香港大学等6所高校联手,发布的首个专为视频分析设计的多模态大模型评估基准。该数据集包含900个视频,总时长达256小时,研究人员通过反复观看视频内容,手动选择和注释共设计了2,700个高质量的多选题。数据集涵盖6大视觉领域,包括知识、电影与电视、体育竞赛、艺术表演、生活记录和多语言,并进一步细分为天文学、科技、纪录片等30个类别,视频长度从11秒到1小时不等。此外,Video-MME还整合字幕和音频轨道,增强了对视频理解的多模态输入分析。更难能可贵的是,Video-MME中所有数据,包括问答、视频、字幕和音频,都是手工收集和整理的,确保了该基准的高质量。该数据集的创建不仅为研究人员提供了一个富有挑战性的测试基准,也为研究外部信息对视频理解性能的影响提供了宝贵的资源。

Video-MME is the first multimodal large model evaluation benchmark specifically designed for video analysis, jointly released by six universities including Peking University and the University of Hong Kong. The dataset comprises 900 videos with a total duration of 256 hours. Researchers manually selected and annotated 2,700 high-quality multiple-choice questions by repeatedly viewing the video content. The dataset spans six major visual domains, including knowledge, film and television, sports competitions, artistic performances, life recordings, and multilingual content, further subdivided into 30 categories such as astronomy, technology, and documentaries, with video lengths ranging from 11 seconds to 1 hour. Additionally, Video-MME integrates subtitles and audio tracks, enhancing the multimodal input analysis for video comprehension. Notably, all data in Video-MME, including Q&A, videos, subtitles, and audio, were manually collected and curated, ensuring the high quality of this benchmark. The creation of this dataset not only provides researchers with a challenging test benchmark but also offers a valuable resource for studying the impact of external information on video comprehension performance.
提供机构:
USTC, XMU, HKU, PKU, CUHK, ECNU
创建时间:
2024-06-07
原始信息汇总

数据集概述

名称: Video-MME

描述: Video-MME 是首个全面评估多模态大型语言模型(MLLMs)在视频分析中应用的基准数据集。该数据集旨在全面评估 MLLMs 处理视频数据的能力,涵盖广泛的视觉领域、时间持续性和数据模态。

数据集构成:

  • 视频数量: 900 个
  • 总时长: 254 小时
  • 问题-答案对: 2,700 个人工标注的问答对

数据集特点:

  • 时间维度持续性: 包括短(<2分钟)、中(4分钟~15分钟)和长(30分钟~60分钟)视频,范围从11秒到1小时。
  • 视频类型多样性: 涵盖6个主要视觉领域,包括知识、电影与电视、体育竞赛、生活记录和多语言,共有30个子领域。
  • 数据模态广度: 除视频帧外,还包括字幕和音频,以评估 MLLMs 的全方位能力。
  • 标注质量: 所有数据均为新收集并由人工标注,确保多样性和质量。

使用许可:

  • 仅限学术研究使用,禁止任何形式的商业使用。
  • 所有视频的版权属于视频所有者。
  • 未经事先批准,不得以任何方式分发、发布、复制、传播或修改 Video-MME 的全部或部分内容。

评估流程:

  • 提取帧和字幕: 包括900个视频和744个字幕,所有长视频均包含字幕。
  • 评估方法: 使用特定的 JSON 格式记录模型响应,并通过自定义脚本计算准确率。

联系方式: 如有任何问题,请发送邮件至 videomme2024@gmail.com。

AI搜集汇总
数据集介绍
main_image_url
构建方式
在探索人工通用智能的征途中,多模态大语言模型(MLLMs)已成为近期进展的焦点,但其处理序列视觉数据的能力仍未得到充分探索。为此,我们构建了Video-MME,这是首个全面的多模态大语言模型在视频分析中的评估基准。该数据集包含900个视频,总计254小时,并附有2,700个人工标注的问题-答案对。其构建过程涵盖了从视频采集、多模态数据整合到人工标注的完整流程,确保了数据的高质量和多样性。
特点
Video-MME数据集的显著特点在于其时间维度上的持续性、视频类型的多样性、数据模态的广度以及标注质量的高标准。具体而言,该数据集包含了从11秒到1小时的视频,涵盖了短、中、长三种持续时间,确保了上下文动态的稳健性。此外,视频类型跨越了6个主要视觉领域和30个子领域,确保了广泛的应用场景。数据模态不仅包括视频帧,还整合了字幕和音频,全面评估MLLMs的能力。所有数据均为全新采集和人工标注,确保了多样性和高质量。
使用方法
使用Video-MME数据集进行评估时,首先需提取视频帧和对应的字幕。对于每个视频,提取的帧数和字幕应与视频的时间点相对应。随后,使用预定义的提示格式进行模型评估,提示中包含视频字幕和问题,模型需根据视频内容选择最佳答案。评估结果以JSON格式输出,并通过提供的评估脚本计算准确率。若需将模型结果添加到排行榜,需将结果发送至指定邮箱,确保格式与模板一致。
背景与挑战
背景概述
在追求人工通用智能的征途中,多模态大语言模型(MLLMs)已成为近期技术进步的焦点。然而,其在处理序列视觉数据方面的潜力仍未得到充分探索。为此,我们引入了Video-MME,这是首个全面的多模态大语言模型在视频分析中的评估基准。该数据集由900个视频组成,总时长254小时,并包含2,700个人工标注的问答对。Video-MME通过四个关键特征区别于现有基准:时间维度上的时长多样性、视频类型的广泛多样性、数据模态的广度以及标注质量的高标准。这一数据集的创建旨在全面评估MLLMs在处理视频数据方面的能力,涵盖了从短到长的视频时长、多种视觉领域以及多模态输入,如字幕和音频。
当前挑战
Video-MME数据集在构建过程中面临多项挑战。首先,视频数据的多样性和复杂性要求在时间维度上涵盖短、中、长三种时长的视频,这增加了数据采集和标注的难度。其次,视频类型的多样性涉及六个主要视觉领域和30个子领域,确保了广泛的应用场景,但也带来了数据集管理的复杂性。此外,整合多模态输入如字幕和音频,以评估MLLMs的全方位能力,增加了数据处理的复杂度和标注的一致性要求。最后,高质量的人工标注确保了数据集的多样性和质量,但这也意味着更高的成本和时间投入。这些挑战共同构成了Video-MME在视频分析领域中的独特性和复杂性。
常用场景
经典使用场景
在视频分析领域,Video-MME数据集的经典使用场景主要集中在多模态大语言模型(MLLMs)的评估与优化。该数据集通过提供900个视频和2,700个人工标注的问题-答案对,支持对MLLMs在处理视频数据时的多维度评估,包括视频时长、视觉领域多样性、数据模态广度及标注质量。
衍生相关工作
基于Video-MME数据集,研究者们已经开展了一系列相关工作,包括但不限于多模态大语言模型的性能评估、视频内容理解的深度学习模型优化以及跨模态信息融合的研究。这些工作不仅丰富了视频分析领域的理论基础,也为实际应用提供了技术支持。
数据集最近研究
最新研究方向
在人工智能领域,多模态大语言模型(MLLMs)的快速发展引发了广泛关注,尤其是在视频分析领域。Video-MME数据集作为首个全面评估多模态大语言模型在视频分析中应用的基准,其研究方向主要集中在提升模型对视频数据的处理能力。具体而言,研究者们致力于通过优化模型架构和训练方法,增强模型对视频中时间维度、视觉领域多样性、多模态数据融合以及高质量标注数据的处理能力。这些研究不仅推动了视频分析技术的进步,也为实现更智能的视频内容理解和生成奠定了基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

基于站点观测的中国1km土壤湿度日尺度数据集(2000-2022)

本研究提供了中国范围1km高质量的土壤湿度数据集-SMCI1.0(Soil Moisture of China by in situ data, version 1.0),SMCI1.0是包含2000-2022年、日尺度、以10厘米为间隔10层深度(10-100cm)的高时空分辨率土壤湿度,数据单位为0.001m³/m³,缺失值为-999,投影为WGS1984。该数据集是以中国气象局提供的1,648个站点观测10层土壤湿度作为基准,使用ERA5_Land气象强迫数据、叶面积指数(LAI)、土地覆盖类型(Landtypes)、地形(DEM)和土壤特性(Soil properties)作为协变量,通过机器学习方式获得。本研究进行了两组实验以验证SMCI1.0的精度,时间尺度上:ubRMSE为0.041-0.052,R为0.883-0.919;空间尺度上:ubRMSE为0.045-0.051,R为0.866-0.893。 由于SMCI1.0是基于实地观测的土壤湿度,它可以作为现有基于模型和卫星数据集的有效补充。该数据产品可用于各种水文、气象、生态分析和建模,尤其在需要高质量、高分辨率土壤湿度的应用上至关重要。有关数据集的引用及详细描述,请阅读说明文档。为便于使用,本研究提供了两种不同分辨率的版本:30 秒(~1km)和0.1度(~9km)。

国家青藏高原科学数据中心 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国知识产权局专利数据库

该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。

www.cnipa.gov.cn 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录