vqa
收藏Hugging Face2024-10-09 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/world-cuisines/vqa
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个多语言数据集,支持多种语言,包括英语、印尼语、中文、韩语、日语等,并且区分了正式和非正式的语言变体。数据集包含两个任务配置,每个配置包含不同大小的测试集和训练集文件路径。
This multilingual dataset supports multiple languages including English, Indonesian, Chinese, Korean, Japanese, etc., and distinguishes between formal and informal language variants. The dataset includes two task configurations, each of which contains training and test set file paths of varying sizes.
创建时间:
2024-10-09
原始信息汇总
数据集概述
许可证
- CC BY-SA 4.0
语言
- 支持多种语言,包括但不限于:
- 英语 (eng)
- 印尼语 (ind)
- 中文 (zho)
- 韩语 (kor)
- 日语 (jpn)
- 其他多种语言
多语言性
- 多语言数据集
语言详情
- 具体语言变体包括:
- 英语 (en)
- 印尼语 (id_formal, id_casual)
- 中文 (zh_cn)
- 韩语 (ko_formal, ko_casual)
- 日语 (ja_formal, ja_casual)
- 其他多种语言变体
配置
-
任务1 (task1)
- 数据文件:
- 测试集 (test_large): hf_prompt/large_eval_task1/*
- 测试集 (test_small): hf_prompt/small_eval_task1/*
- 训练集 (train): hf_prompt/train_task1/*
- 数据文件:
-
任务2 (task2)
- 数据文件:
- 测试集 (test_large): hf_prompt/large_eval_task2/*
- 测试集 (test_small): hf_prompt/small_eval_task2/*
- 训练集 (train): hf_prompt/train_task2/*
- 数据文件:
搜集汇总
数据集介绍

构建方式
WorldCuisines数据集的构建过程分为四个关键步骤:菜品选择、元数据标注、质量保证和数据编译。首先,从维基百科中筛选出具有文化独特性的菜品,确保每个菜品都有专门的维基百科页面。接着,标注员手动编译每个菜品的元数据,包括视觉表示、分类、描述、菜系和地理分布。随后,通过多轮质量保证流程,确保图像质量、分类和描述的准确性,以及菜系名称和地理信息的标准化。最后,将所有元数据编译成单一文件,形成数据集的基础。
特点
WorldCuisines数据集是一个多语言、多文化的视觉问答(VQA)基准,涵盖30种语言和方言,跨越9个语系,包含超过100万个数据点。该数据集不仅包含丰富的文本-图像对,还通过精心设计的任务(如菜品名称预测和位置预测)评估模型对文化食品名称及其起源的理解能力。此外,数据集还包含一个全球菜品的知识库(WC-KB),涵盖2414种菜品及其多语言翻译,确保了数据集的多样性和文化相关性。
使用方法
WorldCuisines数据集的使用方法主要围绕其两个核心任务展开:菜品名称预测和位置预测。用户可以通过加载数据集的不同配置(如task1和task2)来访问训练集、测试集和验证集。每个任务包含多个子任务,例如无上下文问题、上下文化问题和对抗性上下文化问题,用户可以根据需求选择适合的任务进行模型训练和评估。此外,数据集提供了多语言翻译的提示模板和并行数据条目,支持跨语言和跨文化的模型测试。
背景与挑战
背景概述
WorldCuisines数据集于2024年10月17日发布,由Genta Indra Winata等人主导开发,旨在通过全球美食的多语言和多文化视觉问答(VQA)任务,推动跨文化理解的研究。该数据集涵盖了30种语言和方言,包含超过100万个数据点,是目前最大的多文化VQA基准。数据集的核心研究问题在于如何通过视觉和文本信息的结合,准确识别和理解不同文化背景下的美食及其起源。WorldCuisines不仅为多语言模型提供了丰富的训练和测试资源,还为跨文化研究提供了重要的数据支持。
当前挑战
WorldCuisines数据集面临的挑战主要体现在两个方面。首先,在领域问题层面,多语言和多文化的视觉问答任务要求模型能够处理复杂的语言变体和多样的文化背景,这对模型的泛化能力和文化敏感性提出了极高的要求。其次,在数据构建过程中,研究者需要从Wikipedia和Wikimedia Commons等开放资源中筛选出具有文化独特性的美食,并确保数据的多样性和质量。此外,多语言翻译和标注的复杂性也增加了数据集的构建难度,尤其是在处理语言变体和形态变化时,如何保持翻译的自然性和准确性成为了关键挑战。
常用场景
经典使用场景
WorldCuisines数据集在视觉问答(VQA)领域中被广泛用于评估模型在多语言和多文化背景下的理解能力。通过全球美食的图像和文本对,模型需要预测菜品的名称及其起源地,涵盖了30种语言和方言。这一数据集特别适用于研究跨文化视觉理解任务,尤其是在处理多语言和多样化文化背景下的复杂问题时,能够有效测试模型的鲁棒性和泛化能力。
衍生相关工作
WorldCuisines数据集衍生了多项经典研究工作,尤其是在多语言视觉问答模型的开发与评估领域。基于该数据集的研究不仅推动了多语言嵌入模型的发展,还促进了跨文化理解任务的创新。例如,Winata等人(2024)提出的多语言模型E5$_ ext{LARGE}$ Instruct,便是基于该数据集进行训练和评估的典型代表。此外,该数据集还为多语言知识库的构建提供了重要参考,推动了多语言AI技术的进一步发展。
数据集最近研究
最新研究方向
近年来,随着多语言和多文化理解的不断深入,视觉问答(VQA)领域的研究逐渐聚焦于跨文化和多语言场景下的模型表现。WorldCuisines数据集作为目前最大规模的多文化VQA基准,涵盖了30种语言和方言,涉及全球各地的美食文化,为研究多语言模型的文化敏感性和语言多样性提供了重要支持。该数据集不仅包含丰富的文本-图像对,还设计了两个核心任务:菜品名称预测和地理位置预测,旨在评估模型在跨文化语境下的理解能力。特别是对抗性上下文问题的引入,进一步挑战了模型在误导信息下的鲁棒性。这一数据集的出现,推动了多语言VQA模型在文化多样性理解方面的研究,为全球化的AI应用提供了重要的数据基础。
以上内容由遇见数据集搜集并总结生成



