five

laolao77/MMDU

收藏
Hugging Face2024-06-26 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/laolao77/MMDU
下载链接
链接失效反馈
官方服务:
资源简介:
MMDU数据集包含两个主要部分:MMDU Benchmark和MMDU-45k Instruct Tuning Dataset。MMDU Benchmark用于评估现有模型在多图像多轮对话中的能力,包含110个高质量的多图像多轮对话,涉及1600多个问题,每个问题都有详细的长篇答案。MMDU-45k Instruct Tuning Dataset则包含45k个指令调优数据对话,每个对话具有超长上下文,平均图像和文本长度为5k tokens,最大长度为17k tokens,每个对话平均包含9轮问答,最多27轮。数据集的设计格式良好,具有很好的扩展性。
提供机构:
laolao77
原始信息汇总

MMDU 数据集概述

数据集许可

  • 许可证:CC BY-NC 4.0

任务类别

  • 视觉问答
  • 问答

语言

  • 英语

数据集名称

  • 名称:MMDU Dataset Card

配置

  • 配置名称:MMDU
  • 数据文件:benchmark.json

MMDU 基准测试

  • 包含 110 个高质量多图像多轮对话,超过 1600 个问题,每个问题都有详细的较长答案。
  • 每个对话涉及 2 到 20 张图像,平均图像和文本令牌长度为 8.2k 令牌,最大图像和文本长度达到 18K 令牌

MMDU-45k 指令调优数据集

  • 包含 45k 个指令调优数据对话
  • 每个数据的平均图像和文本令牌长度为 5k,最大图像和文本令牌长度为 17k 令牌
  • 每个对话平均包含 9 轮问答,最多 27 轮
  • 每个数据包含 2-5 张图像
  • 图像和文本长度以及问答轮数显著超过所有现有指令调优数据集。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作