WORLDCUISINES
收藏arXiv2024-10-17 更新2024-10-18 收录
下载链接:
https://huggingface.co/datasets/worldcuisines/vqa
下载链接
链接失效反馈官方服务:
资源简介:
WORLDCUISINES是一个大规模的多语言和多文化视觉问答(VQA)基准数据集,旨在评估视觉语言模型在处理非英语和代表性不足的文化背景下的文化特定知识的能力。该数据集包含超过100万条高质量的文本-图像对,涵盖30种语言和方言,跨越9种语言家族,涉及189个国家和地区。数据集的创建过程包括从维基百科和维基共享资源中收集数据,经过人工注释和质量保证,确保数据的准确性和文化相关性。数据集的应用领域主要集中在文化识别和区域美食的预测,旨在解决视觉语言模型在多语言和文化背景下的理解和区分能力。
WORLDCUISINES is a large-scale multilingual and multicultural visual question answering (VQA) benchmark dataset designed to evaluate the capacity of vision-language models to handle culture-specific knowledge in non-English and underrepresented cultural contexts. This dataset includes over 1 million high-quality text-image pairs, covering 30 languages and dialects spanning 9 language families, and involving 189 countries and regions. The dataset construction process involves collecting data from Wikipedia and Wikimedia Commons, followed by manual annotation and quality assurance to ensure the accuracy and cultural relevance of the data. Its primary application areas focus on cultural recognition and regional cuisine prediction, aiming to address the limitations of vision-language models' ability to understand and differentiate across multilingual and cultural backgrounds.
提供机构:
SEACrowd
创建时间:
2024-10-17
原始信息汇总
数据集概述
许可证
- 许可证类型:CC BY-SA 4.0
语言
- 支持的语言:
- 英语 (eng)
- 印尼语 (ind)
- 印尼语 (ind)
- 中文 (zho)
- 韩语 (kor)
- 韩语 (kor)
- 日语 (jpn)
- 日语 (jpn)
- 巽他语 (sun)
- 爪哇语 (jav)
- 爪哇语 (jav)
- 捷克语 (ces)
- 西班牙语 (spa)
- 法语 (fra)
- 阿拉伯语 (ara)
- 印地语 (hin)
- 孟加拉语 (ben)
- 马拉地语 (mar)
- 僧伽罗语 (sin)
- 约鲁巴语 (yor)
- 粤语 (yue)
- 闽南语 (nan)
- 闽南语 (nan)
- 他加禄语 (tgl)
- 泰语 (tha)
- 阿塞拜疆语 (aze)
- 俄语 (rus)
- 俄语 (rus)
- 意大利语 (ita)
- 撒丁语 (srd)
多语言性
- 多语言数据集
语言细节
- 具体语言变体:
- 英语 (en)
- 印尼语正式 (id_formal)
- 印尼语非正式 (id_casual)
- 中文简体 (zh_cn)
- 韩语正式 (ko_formal)
- 韩语非正式 (ko_casual)
- 日语正式 (ja_formal)
- 日语非正式 (ja_casual)
- 巽他语 (su_loma)
- 爪哇语 (jv_krama)
- 爪哇语 (jv_ngoko)
- 捷克语 (cs)
- 西班牙语 (es)
- 法语 (fr)
- 阿拉伯语 (ar)
- 印地语 (hi)
- 孟加拉语 (bn)
- 马拉地语 (mr)
- 僧伽罗语正式口语 (si_formal_spoken)
- 约鲁巴语 (yo)
- 粤语 (yue)
- 闽南语 (nan)
- 闽南语口语 (nan_spoken)
- 他加禄语 (tl)
- 泰语 (th)
- 阿塞拜疆语 (az)
- 俄语正式 (ru_formal)
- 俄语非正式 (ru_casual)
- 意大利语 (it)
- 撒丁语 (sc)
配置
-
配置名称:task1
- 数据文件:
- 分割:test_large
- 路径:hf_prompt/large_eval_task1/*
- 分割:test_small
- 路径:hf_prompt/small_eval_task1/*
- 分割:train
- 路径:hf_prompt/train_task1/*
- 分割:test_large
- 数据文件:
-
配置名称:task2
- 数据文件:
- 分割:test_large
- 路径:hf_prompt/large_eval_task2/*
- 分割:test_small
- 路径:hf_prompt/small_eval_task2/*
- 分割:train
- 路径:hf_prompt/train_task2/*
- 分割:test_large
- 数据文件:
搜集汇总
数据集介绍

构建方式
WORLDCUISINES数据集的构建过程严谨而系统,主要通过四个关键步骤完成。首先,从Wikipedia中筛选出具有特定文化意义的菜品名称,确保每道菜品都有独立的Wikipedia页面。其次,通过人工注释器为每道菜品编译元数据,包括视觉表示、分类、描述、菜系和地理分布等信息。接着,进行质量保证,通过多轮检查确保图像质量、分类准确性和描述的完整性。最后,将所有元数据编译成单一文件,形成WC-KB知识库,并基于此生成WC-VQA数据集。
特点
WORLDCUISINES数据集的显著特点在于其大规模和多语言、多文化的覆盖。该数据集包含超过100万条数据,涵盖30种语言和方言,跨越9种语言家族,是目前最大的多文化视觉问答基准。此外,数据集设计了两个主要任务:菜品名称预测和地域菜系预测,并提供了两种答案类型:多选题和开放式问题,以全面评估模型的文化理解和语言处理能力。
使用方法
WORLDCUISINES数据集主要用于评估视觉语言模型(VLMs)在多语言和多文化背景下的表现。研究者可以通过提供的训练数据集进行模型训练,并使用测试数据集(包括12k和60k实例)进行性能评估。数据集的开放性和多样性使其适用于各种跨文化研究,特别是食品文化相关的视觉问答任务。此外,数据集还提供了知识库和代码,支持未来的研究和模型优化。
背景与挑战
背景概述
WORLDCUISINES数据集由Genta Indra Winata等研究人员于2024年创建,旨在解决视觉语言模型(VLMs)在处理多语言和文化特定知识时的不足。该数据集包含超过100万条多语言和文化多样性的视觉问答(VQA)数据,涵盖30种语言和方言,涉及9种语言家族,是目前最大的多文化VQA基准。WORLDCUISINES不仅评估模型对菜肴名称及其起源的识别能力,还提供了对抗性上下文以测试模型的鲁棒性。该数据集的发布旨在推动VLMs在多语言和文化理解方面的研究,并为未来的研究提供丰富的资源。
当前挑战
WORLDCUISINES数据集面临的挑战主要集中在两个方面:一是解决领域问题,即如何提高VLMs在多语言和文化背景下的视觉问答能力;二是构建过程中遇到的挑战,包括数据的多语言翻译、文化背景的准确标注以及对抗性上下文的生成。此外,数据集的构建还需要确保高质量的人工标注和严格的质量控制,以保证数据的可靠性和有效性。这些挑战不仅要求研究人员具备跨文化的理解能力,还需要在技术上实现多语言和多文化的无缝集成。
常用场景
经典使用场景
WORLDCUISINES 数据集的经典使用场景在于评估视觉语言模型(VLMs)在多语言和多文化背景下的视觉问答(VQA)能力。该数据集通过包含30种语言和方言的文本-图像对,涵盖了全球9种语言家族,提供了超过100万的数据点,使其成为迄今为止最大的多文化VQA基准。主要任务包括识别菜肴名称及其起源,通过无上下文、有上下文和对抗性上下文等多种问题类型,全面评估模型的文化理解和多语言处理能力。
衍生相关工作
WORLDCUISINES 数据集的发布催生了一系列相关研究工作,特别是在多模态语言模型(VLMs)和跨文化视觉问答(VQA)领域。例如,研究者们利用该数据集开发了新的模型架构,以提高在多语言环境中的表现;同时,也有工作专注于分析和改进模型在处理对抗性上下文时的鲁棒性。此外,该数据集还激发了对文化偏见和模型公平性的深入研究,推动了更具包容性和公平性的AI系统的发展。
数据集最近研究
最新研究方向
WORLDCUISINES数据集的最新研究方向主要集中在多语言和多文化视觉问答(VQA)领域。该数据集通过包含30种语言和方言的100万条高质量文本-图像对,旨在评估视觉语言模型(VLMs)在处理非英语和代表性不足的文化背景下的文化特定知识的能力。研究者们正在探索如何通过提供正确的上下文信息来提升VLMs的性能,同时也在研究对抗性上下文对模型预测的影响。此外,研究还关注于创建多语言查询模板,以确保在不同语言变体中的自然性和准确性,从而推动VLMs在跨文化理解方面的应用和发展。
相关研究论文
- 1WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global CuisinesSEACrowd · 2024年
以上内容由遇见数据集搜集并总结生成



