vqa
收藏WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines
概述
WorldCuisines 是一个大规模的视觉问答(VQA)基准,用于通过全球美食进行多语言和多文化理解。该数据集包含跨越30种语言和方言的文本-图像对,涵盖9种语言家族,包含超过100万个数据点,是截至2024年10月17日最大的多文化VQA基准。
数据集组成
- WC-VQA:基于WC-KB构建的VQA数据集。
- WC-KB:全球美食的知识库,包含2,414种全球菜肴,6,045张图片和元数据,涵盖粗粒度和细粒度分类、地理位置和地区美食。
任务设计
-
Task 1: 菜肴名称预测
- (a) 无上下文问题:预测菜肴名称,无额外上下文。
- (b) 上下文化问题:提供上下文信息,预测菜肴名称。
- (c) 对抗性上下文化问题:提供误导性上下文,预测菜肴名称。
-
Task 2: 地理位置预测
- 基于菜肴图像、问题和上下文信息,预测菜肴常见消费或起源的地理位置。
数据集规模
- WC-VQA:包含100万个样本,涵盖30种语言和方言。
- 提供两种规模的评估数据集(12,000和60,000实例)和训练数据集(1,080,000实例)。
数据集构建
数据来源
- 数据收集自Wikipedia和Wikimedia Commons。
构建步骤
- 菜肴选择:从Wikipedia中筛选具有文化意义的菜肴。
- 元数据标注:手动编译菜肴的元数据,包括视觉表示、分类、描述、菜系和地理分布。
- 质量保证:通过多轮质量检查确保数据质量。
- 数据编译:将元数据整合成单一文件。
VQA生成
生成过程
- 菜肴名称相似性搜索:使用多语言模型计算文本嵌入,识别相似菜肴。
- 问题和上下文构建:根据上下文构建不同类型的问题。
- 多语言翻译:将问题和上下文翻译成30种语言和方言。
- 生成VQA三元组:确保训练和测试集无重叠,随机采样菜肴和问题对生成VQA数据。
伦理考虑
- 采用众包方式进行标注,确保透明和公平。
- 数据集将根据CC-BY-SA 4.0许可证发布。
联系信息
引用
bibtex @misc{winata2024worldcuisinesmassivescalebenchmarkmultilingual, title={WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines}, author={Genta Indra Winata and Frederikus Hudi and Patrick Amadeus Irawan and David Anugraha and Rifki Afina Putri and Yutong Wang and Adam Nohejl and Ubaidillah Ariq Prathama and Nedjma Ousidhoum and Afifa Amriani and Anar Rzayev and Anirban Das and Ashmari Pramodya and Aulia Adila and Bryan Wilie and Candy Olivia Mawalim and Ching Lam Cheng and Daud Abolade and Emmanuele Chersoni and Enrico Santus and Fariz Ikhwantri and Garry Kuwanto and Hanyang Zhao and Haryo Akbarianto Wibowo and Holy Lovenia and Jan Christian Blaise Cruz and Jan Wira Gotama Putra and Junho Myung and Lucky Susanto and Maria Angelica Riera Machin and Marina Zhukova and Michael Anugraha and Muhammad Farid Adilazuarda and Natasha Santosa and Peerat Limkonchotiwat and Raj Dabre and Rio Alexander Audino and Samuel Cahyawijaya and Shi-Xiong Zhang and Stephanie Yulia Salim and Yi Zhou and Yinxuan Gui and David Ifeoluwa Adelani and En-Shiun Annie Lee and Shogo Okada and Ayu Purwarianti and Alham Fikri Aji and Taro Watanabe and Derry Tanti Wijaya and Alice Oh and Chong-Wah Ngo}, year={2024}, eprint={2410.12705}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.12705}, }




