Video-MME - 视频分析多模态大模型评估基准数据集|视频分析数据集|多模态评估数据集
收藏数据集概述
名称: Video-MME
描述: Video-MME 是首个全面评估多模态大型语言模型(MLLMs)在视频分析中应用的基准数据集。该数据集旨在全面评估 MLLMs 处理视频数据的能力,涵盖广泛的视觉领域、时间持续性和数据模态。
数据集构成:
- 视频数量: 900 个
- 总时长: 254 小时
- 问题-答案对: 2,700 个人工标注的问答对
数据集特点:
- 时间维度持续性: 包括短(<2分钟)、中(4分钟~15分钟)和长(30分钟~60分钟)视频,范围从11秒到1小时。
- 视频类型多样性: 涵盖6个主要视觉领域,包括知识、电影与电视、体育竞赛、生活记录和多语言,共有30个子领域。
- 数据模态广度: 除视频帧外,还包括字幕和音频,以评估 MLLMs 的全方位能力。
- 标注质量: 所有数据均为新收集并由人工标注,确保多样性和质量。
使用许可:
- 仅限学术研究使用,禁止任何形式的商业使用。
- 所有视频的版权属于视频所有者。
- 未经事先批准,不得以任何方式分发、发布、复制、传播或修改 Video-MME 的全部或部分内容。
评估流程:
- 提取帧和字幕: 包括900个视频和744个字幕,所有长视频均包含字幕。
- 评估方法: 使用特定的 JSON 格式记录模型响应,并通过自定义脚本计算准确率。
联系方式: 如有任何问题,请发送邮件至 videomme2024@gmail.com。

alpacaGPT4_llama8b-v120-jb-seed2-alpaca_512_ngt0.7_tp0.9
该数据集包含了用户和助手之间的对话,具有用户和助手发言的文本特征,以及一个索引级别特征。数据集分为训练集,共有52001条对话记录。
huggingface 收录
RETQA
RETQA是由北京师范大学创建的第一个大规模开放领域中文表格问答数据集,专门针对房地产领域。该数据集包含4932个表格和20762个问答对,涵盖16个子领域,涉及房产信息、房地产公司财务信息和土地拍卖信息。数据集通过从中国八个主要城市的公开数据源收集并清洗整理,每个表格都配有摘要标题以辅助检索。RETQA的创建过程包括表格收集、问答对生成、意图和槽标签注释以及查询重写和质量控制。该数据集主要用于解决房地产领域的开放域和长表格问答问题,推动表格问答技术的发展。
arXiv 收录
GenExam
GenExam是一个跨学科的文本到图像考试基准数据集,包含10个学科领域的1000个样本。每个样本都配备了考试风格的提示、真实图像和细粒度的评分点,旨在精确评估语义正确性和视觉合理性。该数据集通过将图像生成作为考试,严格评估模型的知识整合、推理和生成能力,为通用AGI的发展提供了见解。
huggingface 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
FACED
FACED数据集是由清华大学脑与智能实验室和智能技术与系统国家重点实验室共同创建,包含从123名参与者收集的32通道EEG信号,用于情感计算研究。数据集通过记录参与者观看28个情感诱发视频片段时的EEG信号构建,旨在通过EEG信号分析情感状态。创建过程中,数据经过标准化和统一预处理,设计了四个EEG分类任务。该数据集主要应用于情感识别和脑机接口领域,旨在解决情感计算中的分类问题,提高情感识别的准确性和效率。
arXiv 收录