maxm

Name: maxm
Creator: NeuLab @ LTI/CMU
Published: 2024-11-01 04:29:56
License: 暂无描述

Hugging Face2024-11-01 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/neulab/maxm

下载链接

链接失效反馈

官方服务：

资源简介：

MaXM数据集是一个多语言的视觉问答数据集，包含了多种语言的图像、问题和答案。支持的语言包括英语、法语、印地语、罗马尼亚语、泰语、希伯来语和中文。每个样本包含图像的ID、URL、图像数据、图像的本地化信息、图像的描述、问题ID、问题、答案、处理后的答案、语言标签、是否为集合以及处理方法。数据集分为多个子集，每个子集对应一种语言，并且提供了每个子集的字节数和样本数。数据集的总下载大小和总大小也已提供。

提供机构：

NeuLab @ LTI/CMU

创建时间：

2024-11-01

原始信息汇总

MaXM 数据集概述

基本信息

语言:
- 英语 (en)
- 法语 (fr)
- 印地语 (hi)
- 罗马尼亚语 (ro)
- 泰语 (th)
- 希伯来语 (he)
- 中文 (zh)
数据集大小:
- 下载大小: 106,887,693 字节
- 数据集大小: 169,766,077 字节
任务类别: 视觉问答 (visual-question-answering)
数据集名称: MaXM

数据集结构

特征:
- image_id: 字符串类型
- image_url: 字符串类型
- image: 结构体类型，包含 bytes 和 path 两个字段
- image_locale: 字符串类型
- image_captions: 字符串序列
- question_id: 字符串类型
- question: 字符串类型
- answers: 字符串序列
- processed_answers: 字符串序列
- language: 字符串类型
- is_collection: 布尔类型
- method: 字符串类型

数据集分割

分割信息:
- hi: 260 个样本, 23,640,810 字节
- th: 268 个样本, 23,960,076 字节
- zh: 277 个样本, 24,634,226 字节
- fr: 264 个样本, 23,188,830 字节
- en: 257 个样本, 23,067,651 字节
- iw: 280 个样本, 25,044,532 字节
- ro: 284 个样本, 26,229,952 字节

配置信息

默认配置:
- config_name: default
- data_files:
  - hi: data/hi-*
  - th: data/th-*
  - zh: data/zh-*
  - fr: data/fr-*
  - en: data/en-*
  - iw: data/iw-*
  - ro: data/ro-*

搜集汇总

数据集介绍

构建方式

MaXM数据集的构建基于多语言视觉问答任务，涵盖了英语、法语、印地语、罗马尼亚语、泰语、希伯来语和中文等多种语言。数据集的创建过程包括从XM3600图像中提取图像及其对应的多语言描述，并通过人工标注和自动化处理生成问答对。每个样本包含图像ID、图像URL、图像数据、图像描述、问题、答案及处理后的答案，确保了数据的多样性和丰富性。

特点

MaXM数据集的特点在于其多语言支持和广泛的视觉问答任务覆盖。数据集包含超过1000个样本，每个样本均配有详细的图像描述和多语言问答对，涵盖了多种语言和文化背景。图像数据以二进制格式存储，便于高效加载和处理。此外，数据集还提供了图像的地理位置信息，进一步增强了其在跨文化研究中的应用价值。

使用方法

使用MaXM数据集时，首先需通过Hugging Face的`load_dataset`函数加载数据。由于图像存储格式的特殊性，需使用`Image().decode_example`方法将二进制图像数据转换为可处理的格式。加载后，数据集可直接用于训练和评估多语言视觉问答模型，支持多种语言的任务，为跨语言视觉理解研究提供了丰富的实验数据。

背景与挑战

背景概述

MaXM数据集由Google LLC的研究团队于2023年推出，旨在推动多语言视觉问答（Multilingual Visual Question Answering, MVQA）领域的发展。该数据集由Soravit Changpinyo等研究人员主导，涵盖了英语、法语、印地语、罗马尼亚语、泰语、希伯来语和中文等多种语言，旨在解决跨语言视觉理解与问答的复杂问题。MaXM的构建基于XM3600图像数据集，并扩展了图像描述和语言信息，为多语言环境下的视觉问答任务提供了丰富的资源。该数据集的发布显著提升了多语言视觉问答模型的研究与应用，为跨语言人工智能技术的发展提供了重要支持。

当前挑战

MaXM数据集在解决多语言视觉问答问题时面临多重挑战。首先，跨语言视觉问答任务要求模型不仅能够理解图像内容，还需具备多语言文本处理能力，这对模型的跨模态理解和语言适应性提出了极高要求。其次，数据集的构建过程中，如何确保不同语言之间的语义一致性以及图像描述的准确性，成为一大难题。此外，由于图像存储格式的技术问题，用户在使用数据集时需进行额外的图像解码操作，这增加了数据处理的复杂性。这些挑战不仅影响了数据集的易用性，也对模型的训练和评估提出了更高的技术要求。

常用场景

经典使用场景

MaXM数据集在视觉问答（Visual Question Answering, VQA）领域中被广泛应用，尤其是在多语言环境下。该数据集通过提供多种语言的图像、问题和答案，支持研究者开发跨语言的视觉问答模型。经典的使用场景包括在多语言环境中测试模型的泛化能力，以及评估模型在不同语言背景下的表现。

衍生相关工作

MaXM数据集衍生了一系列经典的研究工作，特别是在多语言视觉问答和跨模态学习领域。例如，基于该数据集的研究提出了多种跨语言视觉问答模型，这些模型在多个语言对之间展示了显著的性能提升。此外，该数据集还激发了关于多语言图像描述生成和跨语言知识迁移的研究，进一步推动了多模态学习的发展。

数据集最近研究