AILab-CVC/SEED-Bench-H
收藏Hugging Face2024-05-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/AILab-CVC/SEED-Bench-H
下载链接
链接失效反馈官方服务:
资源简介:
SEED-Bench-H是一个用于评估多模态大语言模型(MLLMs)的大规模基准测试数据集。该数据集包含28,000个多项选择题,涵盖了34个维度,包括文本和图像生成的评估。数据集于2024年4月收集,并提供了多个数据来源的详细信息及其相应的许可证。其主要用途是评估多模态大语言模型在文本和图像生成任务中的表现,主要面向计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。
SEED-Bench-H是一个用于评估多模态大语言模型(MLLMs)的大规模基准测试数据集。该数据集包含28,000个多项选择题,涵盖了34个维度,包括文本和图像生成的评估。数据集于2024年4月收集,并提供了多个数据来源的详细信息及其相应的许可证。其主要用途是评估多模态大语言模型在文本和图像生成任务中的表现,主要面向计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。
提供机构:
AILab-CVC
原始信息汇总
SEED-Bench-H 数据集概述
数据集基本信息
- 许可证: cc-by-nc-4.0
- 任务类别: 视觉问答
- 语言: 英语
- 数据集大小: 1K<n<10K
数据集详细描述
基准类型
SEED-Bench-H 是一个大规模的基准,用于评估多模态大型语言模型(MLLMs)。它包含28,000个多选题,涵盖34个维度,包括文本和图像生成能力的评估。
数据收集时间
数据集于2024年4月收集。
数据来源
- 维度1-9, 23 (情境标题): 概念标题数据集
- 维度9 (文本识别): ICDAR2003, ICDAR2013, IIIT5k, SVT
- 维度10 (名人识别): MME, MMBench
- 维度11 (地标识别): 谷歌地标数据集v2
- 维度12 (图表理解): PlotQA
- 维度13 (视觉引用表达): VCR
- 维度14 (科学知识): ScienceQA
- 维度15 (情感识别): FER2013
- 维度16 (视觉数学): MME, 互联网数据
- 维度17 (差异识别): MIMICIT
- 维度18 (模因理解): 互联网数据
- 维度19 (全球视频理解): Charades
- 维度20-22 (动作识别, 动作预测, 过程理解): Something-Something v2, Epic-Kitchen 100, Breakfast
- 维度24 (交错图像-文本分析): 互联网数据
- 维度25 (文本到图像生成): CC-500, ABC-6k, Stable-Diffusion-XL
- 维度26 (下一图像预测): Epic-Kitchen 100
- 维度27 (文本图像创作): 互联网数据
- 维度28-31 (少量样本分割, 关键点, 深度, 对象): MSCOCO数据集
- 维度32 (图像到LaTeX): Im2Latex数据集
- 维度33 (文本丰富的视觉理解): 互联网数据
预期用途
- 主要用途: 评估多模态大型语言模型在文本和图像生成任务中的表现。
- 主要用户: 计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。



