five

AILab-CVC/SEED-Bench-H

收藏
Hugging Face2024-05-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/AILab-CVC/SEED-Bench-H
下载链接
链接失效反馈
官方服务:
资源简介:
SEED-Bench-H是一个用于评估多模态大语言模型(MLLMs)的大规模基准测试数据集。该数据集包含28,000个多项选择题,涵盖了34个维度,包括文本和图像生成的评估。数据集于2024年4月收集,并提供了多个数据来源的详细信息及其相应的许可证。其主要用途是评估多模态大语言模型在文本和图像生成任务中的表现,主要面向计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。

SEED-Bench-H是一个用于评估多模态大语言模型(MLLMs)的大规模基准测试数据集。该数据集包含28,000个多项选择题,涵盖了34个维度,包括文本和图像生成的评估。数据集于2024年4月收集,并提供了多个数据来源的详细信息及其相应的许可证。其主要用途是评估多模态大语言模型在文本和图像生成任务中的表现,主要面向计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。
提供机构:
AILab-CVC
原始信息汇总

SEED-Bench-H 数据集概述

数据集基本信息

  • 许可证: cc-by-nc-4.0
  • 任务类别: 视觉问答
  • 语言: 英语
  • 数据集大小: 1K<n<10K

数据集详细描述

基准类型

SEED-Bench-H 是一个大规模的基准,用于评估多模态大型语言模型(MLLMs)。它包含28,000个多选题,涵盖34个维度,包括文本和图像生成能力的评估。

数据收集时间

数据集于2024年4月收集。

数据来源

  • 维度1-9, 23 (情境标题): 概念标题数据集
  • 维度9 (文本识别): ICDAR2003, ICDAR2013, IIIT5k, SVT
  • 维度10 (名人识别): MME, MMBench
  • 维度11 (地标识别): 谷歌地标数据集v2
  • 维度12 (图表理解): PlotQA
  • 维度13 (视觉引用表达): VCR
  • 维度14 (科学知识): ScienceQA
  • 维度15 (情感识别): FER2013
  • 维度16 (视觉数学): MME, 互联网数据
  • 维度17 (差异识别): MIMICIT
  • 维度18 (模因理解): 互联网数据
  • 维度19 (全球视频理解): Charades
  • 维度20-22 (动作识别, 动作预测, 过程理解): Something-Something v2, Epic-Kitchen 100, Breakfast
  • 维度24 (交错图像-文本分析): 互联网数据
  • 维度25 (文本到图像生成): CC-500, ABC-6k, Stable-Diffusion-XL
  • 维度26 (下一图像预测): Epic-Kitchen 100
  • 维度27 (文本图像创作): 互联网数据
  • 维度28-31 (少量样本分割, 关键点, 深度, 对象): MSCOCO数据集
  • 维度32 (图像到LaTeX): Im2Latex数据集
  • 维度33 (文本丰富的视觉理解): 互联网数据

预期用途

  • 主要用途: 评估多模态大型语言模型在文本和图像生成任务中的表现。
  • 主要用户: 计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作