PangeaBench-xmmmu

Name: PangeaBench-xmmmu
Creator: NeuLab @ LTI/CMU
Published: 2024-11-03 21:05:38
License: 暂无描述

Hugging Face2024-11-03 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/neulab/PangeaBench-xmmmu

下载链接

链接失效反馈

官方服务：

资源简介：

xmmmu数据集是一个多语言的视觉问答和多选题任务数据集，支持阿拉伯语、法语、印地语、印度尼西亚语、日语、葡萄牙语和英语。数据集包含不同语言的分片，每个分片包含不同数量的示例，其中英语分片包含900个示例。数据集的许可证为MIT，大小类别为1K到10K之间。数据文件以parquet格式存储，每个语言分片对应一个数据文件。

提供机构：

NeuLab @ LTI/CMU

创建时间：

2024-10-28

原始信息汇总

PangeaBench-xmmmu 数据集概述

基本信息

语言:
- 阿拉伯语 (ar)
- 法语 (fr)
- 印地语 (hi)
- 印度尼西亚语 (id)
- 日语 (ja)
- 葡萄牙语 (pt)
- 英语 (en)
许可证: MIT
数据规模: 1K < n < 10K

任务类别

视觉问答 (visual-question-answering)
问答 (question-answering)
多选题 (multiple-choice)

数据集特征

id: 字符串类型
question: 字符串类型
options: 字符串类型
explanation: 字符串类型
image_1 至 image_7: 图像类型
img_type: 字符串类型
answer: 字符串类型
topic_difficulty: 字符串类型
question_type: 字符串类型
subfield: 字符串类型

数据集分割

ar: 298 个样本
fr: 298 个样本
hi: 291 个样本
id: 297 个样本
ja: 269 个样本
pt: 297 个样本
en: 900 个样本

配置信息

config_name: default
- data_files:
  - ar: data/translated_MMMU_val_300_with_image_Arabic.parquet
  - fr: data/translated_MMMU_val_300_with_image_French.parquet
  - hi: data/translated_MMMU_val_300_with_image_Hindi.parquet
  - id: data/translated_MMMU_val_300_with_image_Indonesian.parquet
  - ja: data/translated_MMMU_val_300_with_image_Japanese.parquet
  - pt: data/translated_MMMU_val_300_with_image_Portuguese.parquet
  - en: data/en.parquet

搜集汇总

数据集介绍

构建方式

PangeaBench-xmmmu数据集的构建基于多语言视觉问答任务的需求，涵盖了阿拉伯语、法语、印地语、印度尼西亚语、日语、葡萄牙语和英语等多种语言。数据集的构建过程包括从原始MMMU数据集中提取问题，并通过翻译工具将其转化为目标语言，同时保留了与问题相关的图像信息。每个样本包含问题、选项、解释、多张图像以及答案等丰富信息，确保了数据的多样性和完整性。

特点

PangeaBench-xmmmu数据集的特点在于其多语言支持和多模态数据的结合。数据集不仅涵盖了七种语言，还包含了与问题相关的多张图像，使得模型能够在多语言环境下进行视觉问答任务。此外，数据集还提供了问题的解释、难度级别、问题类型和子领域等元信息，为研究者提供了更丰富的分析维度。这种多语言和多模态的结合，使得该数据集在跨语言视觉问答领域具有独特的价值。

使用方法

PangeaBench-xmmmu数据集的使用方法主要围绕多语言视觉问答任务展开。研究者可以通过加载不同语言的分割数据，进行模型的训练和评估。数据集中的图像和问题信息可以用于构建多模态模型，结合文本和视觉信息进行问答任务。此外，数据集提供的解释和元信息可以用于进一步分析模型的性能和改进方向。通过该数据集，研究者可以探索多语言环境下的视觉问答能力，并推动跨语言多模态模型的发展。

背景与挑战

背景概述

PangeaBench-xmmmu数据集是一个多语言视觉问答（Visual Question Answering, VQA）数据集，涵盖了阿拉伯语、法语、印地语、印尼语、日语、葡萄牙语和英语等多种语言。该数据集由多个研究机构联合开发，旨在解决跨语言和跨文化的视觉理解问题。其核心研究问题在于如何通过多模态数据（图像与文本）进行有效的问答任务，尤其是在不同语言和文化背景下的表现。该数据集的创建时间为近期，反映了当前多语言和多模态研究的前沿趋势，对推动跨语言视觉问答领域的发展具有重要意义。

当前挑战

PangeaBench-xmmmu数据集面临的挑战主要体现在两个方面。首先，跨语言视觉问答任务本身具有复杂性，不同语言之间的语义差异和文化背景差异使得模型在理解和推理过程中面临巨大挑战。其次，数据集的构建过程中，如何确保多语言数据的准确性和一致性是一个关键问题，尤其是在图像与文本的对应关系上，需要精细的标注和验证。此外，数据集的规模相对较小，可能限制了模型在复杂场景下的泛化能力，进一步增加了研究的难度。

常用场景

经典使用场景

PangeaBench-xmmmu数据集在视觉问答（Visual Question Answering, VQA）领域具有广泛的应用。该数据集通过多语言支持，涵盖了阿拉伯语、法语、印地语、印尼语、日语、葡萄牙语和英语等多种语言，使得研究者能够在跨语言环境下进行视觉问答模型的训练与评估。其经典使用场景包括多模态学习、跨语言理解以及多图像推理任务，为模型在复杂场景下的表现提供了丰富的测试平台。

实际应用

在实际应用中，PangeaBench-xmmmu数据集为多语言环境下的智能助手、教育平台和跨文化交流工具的开发提供了重要支持。例如，在教育领域，该数据集可以用于开发多语言教学辅助系统，帮助学生通过视觉和语言的双重输入更好地理解复杂概念。在智能助手领域，该数据集能够提升助手在多语言环境下的问答能力，为用户提供更精准的服务。

衍生相关工作

基于PangeaBench-xmmmu数据集，研究者们已经开展了多项经典工作。例如，一些研究专注于开发跨语言视觉问答模型，利用该数据集的多语言特性提升模型的泛化能力。另一些研究则探索了多模态融合技术，通过结合图像和语言信息，提升模型在复杂场景下的表现。这些工作不仅推动了视觉问答领域的技术进步，还为多模态人工智能的研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集