vqa

Hugging Face2024-10-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/worldcuisines/vqa

下载链接

链接失效反馈

官方服务：

资源简介：

WorldCuisines是一个大规模的多语言和多文化视觉问答（VQA）基准，专注于通过全球美食进行多语言和文化理解。该数据集包含30种语言和方言的文本-图像对，涵盖9种语言家族，包含超过100万个数据点，是目前最大的多文化VQA基准。数据集包括两个主要任务：菜肴名称预测和位置预测。数据集的构建过程包括菜肴选择、元数据标注、质量保证和数据编译四个关键步骤。数据集还提供了两个大小的评估数据集（12,000和60,000实例）以及一个训练数据集（1,080,000实例）。

WorldCuisines is a large-scale multilingual and multicultural visual question answering (VQA) benchmark dedicated to multilingual and cultural understanding through global cuisines. This dataset comprises text-image pairs across 30 languages and dialects belonging to 9 language families, with over one million data points, making it the largest multicultural VQA benchmark currently available. It includes two primary tasks: dish name prediction and geographic location prediction. The construction of the dataset entails four critical stages: cuisine selection, metadata annotation, quality assurance, and data compilation. Furthermore, it provides two evaluation datasets of varying sizes (12,000 and 60,000 instances) alongside a training dataset containing 1,080,000 instances.

创建时间：

2024-10-09

原始信息汇总

WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines

概述

WorldCuisines 是一个大规模的视觉问答（VQA）基准，用于通过全球美食进行多语言和多文化理解。该数据集包含跨越30种语言和方言的文本-图像对，涵盖9种语言家族，包含超过100万个数据点，是截至2024年10月17日最大的多文化VQA基准。

数据集组成

WC-VQA：基于WC-KB构建的VQA数据集。
WC-KB：全球美食的知识库，包含2,414种全球菜肴，6,045张图片和元数据，涵盖粗粒度和细粒度分类、地理位置和地区美食。

任务设计

Task 1: 菜肴名称预测
- (a) 无上下文问题：预测菜肴名称，无额外上下文。
- (b) 上下文化问题：提供上下文信息，预测菜肴名称。
- (c) 对抗性上下文化问题：提供误导性上下文，预测菜肴名称。
Task 2: 地理位置预测
- 基于菜肴图像、问题和上下文信息，预测菜肴常见消费或起源的地理位置。

数据集规模

WC-VQA：包含100万个样本，涵盖30种语言和方言。
提供两种规模的评估数据集（12,000和60,000实例）和训练数据集（1,080,000实例）。

数据集构建

数据来源

数据收集自Wikipedia和Wikimedia Commons。

构建步骤

菜肴选择：从Wikipedia中筛选具有文化意义的菜肴。
元数据标注：手动编译菜肴的元数据，包括视觉表示、分类、描述、菜系和地理分布。
质量保证：通过多轮质量检查确保数据质量。
数据编译：将元数据整合成单一文件。

VQA生成

生成过程

菜肴名称相似性搜索：使用多语言模型计算文本嵌入，识别相似菜肴。
问题和上下文构建：根据上下文构建不同类型的问题。
多语言翻译：将问题和上下文翻译成30种语言和方言。
生成VQA三元组：确保训练和测试集无重叠，随机采样菜肴和问题对生成VQA数据。

伦理考虑

采用众包方式进行标注，确保透明和公平。
数据集将根据CC-BY-SA 4.0许可证发布。

联系信息

电子邮件：Genta Indra Winata 和 Frederikus Hudi

引用

bibtex @misc{winata2024worldcuisinesmassivescalebenchmarkmultilingual, title={WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines}, author={Genta Indra Winata and Frederikus Hudi and Patrick Amadeus Irawan and David Anugraha and Rifki Afina Putri and Yutong Wang and Adam Nohejl and Ubaidillah Ariq Prathama and Nedjma Ousidhoum and Afifa Amriani and Anar Rzayev and Anirban Das and Ashmari Pramodya and Aulia Adila and Bryan Wilie and Candy Olivia Mawalim and Ching Lam Cheng and Daud Abolade and Emmanuele Chersoni and Enrico Santus and Fariz Ikhwantri and Garry Kuwanto and Hanyang Zhao and Haryo Akbarianto Wibowo and Holy Lovenia and Jan Christian Blaise Cruz and Jan Wira Gotama Putra and Junho Myung and Lucky Susanto and Maria Angelica Riera Machin and Marina Zhukova and Michael Anugraha and Muhammad Farid Adilazuarda and Natasha Santosa and Peerat Limkonchotiwat and Raj Dabre and Rio Alexander Audino and Samuel Cahyawijaya and Shi-Xiong Zhang and Stephanie Yulia Salim and Yi Zhou and Yinxuan Gui and David Ifeoluwa Adelani and En-Shiun Annie Lee and Shogo Okada and Ayu Purwarianti and Alham Fikri Aji and Taro Watanabe and Derry Tanti Wijaya and Alice Oh and Chong-Wah Ngo}, year={2024}, eprint={2410.12705}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.12705}, }

搜集汇总

数据集介绍

构建方式

WorldCuisines数据集的构建过程基于全球美食的多语言和多文化理解，涵盖了30种语言和方言。数据源主要来自Wikipedia和Wikimedia Commons，确保了数据的开放性和可再分发性。构建过程包括四个关键步骤：菜品选择、元数据标注、质量保证和数据编译。菜品选择阶段通过手动审查Wikipedia页面，筛选出具有特定文化意义的菜品。元数据标注阶段则包括视觉表示、分类、描述、菜系和地理分布等信息的收集。质量保证阶段通过多轮审查确保数据的准确性和一致性，最终将元数据编译成单一文件。

特点

WorldCuisines数据集是全球最大的多文化视觉问答（VQA）基准，包含超过100万个数据点，涵盖30种语言和方言，涉及9个语系。数据集分为两个任务：菜品名称预测和位置预测。菜品名称预测任务进一步分为无上下文问题、上下文化问题和对抗性上下文化问题三个子任务。数据集还包含一个精心策划的知识库（WC-KB），涵盖了2414种全球菜品，包括6045张图像和元数据。数据集的多语言特性通过高质量的翻译和本地化处理，确保了其在不同文化背景下的适用性。

使用方法

WorldCuisines数据集的使用方法主要围绕其两个核心任务展开。对于菜品名称预测任务，用户可以根据提供的图像、问题和上下文信息预测菜品名称。位置预测任务则要求用户根据菜品图像和问题预测其常见消费地或起源地。数据集提供了大规模的训练集（1,080,000个实例）和两个不同规模的评估集（12,000和60,000个实例），用户可以根据需求选择合适的子集进行模型训练和评估。数据集的开放性和多语言特性使其成为评估多语言和多文化理解模型的理想基准。

背景与挑战

背景概述

WorldCuisines数据集于2024年10月17日发布，由Genta Indra Winata、Frederikus Hudi等研究人员主导开发，旨在通过全球美食的多语言和多文化视觉问答（VQA）任务，推动跨文化理解的研究。该数据集涵盖了30种语言和方言，包含超过100万个数据点，是迄今为止规模最大的多文化VQA基准。WorldCuisines不仅提供了视觉问答数据集（WC-VQA），还构建了一个全球美食知识库（WC-KB），包含2414种全球菜肴的详细元数据。该数据集的设计目标是通过对文化相关食物的识别和起源预测，评估模型在多语言和多文化背景下的理解能力。

当前挑战

WorldCuisines数据集在构建和应用中面临多重挑战。首先，视觉问答任务本身要求模型能够同时处理图像和文本信息，并在多语言环境中进行准确推理，这对模型的跨模态理解和语言处理能力提出了极高要求。其次，数据集的构建过程中，研究人员需要从Wikipedia和Wikimedia Commons等开放资源中筛选具有文化独特性的菜肴，并确保其元数据的准确性和一致性，这一过程涉及大量的人工标注和质量控制。此外，多语言翻译的复杂性也是一个重要挑战，尤其是在处理具有丰富形态变化的语言时，如何保持翻译的自然性和准确性成为关键问题。最后，数据集的规模庞大，如何在保证数据质量的同时高效地生成和管理数百万个数据点，也是构建过程中不可忽视的难题。

常用场景

经典使用场景

WorldCuisines数据集在视觉问答（VQA）领域中被广泛用于评估模型在多语言和多文化背景下的理解能力。通过全球美食的文本-图像对，该数据集为研究者提供了一个大规模、多样化的测试平台，尤其是在跨文化食物名称及其起源的识别任务中表现突出。

衍生相关工作

WorldCuisines数据集衍生了一系列经典研究工作，特别是在多语言视觉问答模型的设计和优化方面。基于该数据集，研究者提出了多种改进模型性能的方法，如多语言嵌入模型和跨文化知识融合技术。这些工作不仅提升了模型在跨文化任务中的表现，还为多语言VQA领域的进一步发展提供了重要参考。

数据集最近研究