CultureGround

Name: CultureGround
Creator: NeuLab @ LTI/CMU
Published: 2025-07-31 05:19:31
License: 暂无描述

Hugging Face2025-07-31 更新2025-08-01 收录

下载链接：

https://huggingface.co/datasets/neulab/CultureGround

下载链接

链接失效反馈

官方服务：

资源简介：

CulturalGround是一个大规模的多语言、多模态视觉问答（VQA）数据集，旨在为语言模型提供丰富的文化知识。该数据集包含超过2100万对VQA，涵盖42个国家和39种语言，重点关注在标准训练语料库中通常代表性不足的文化实体。数据集分为开放式和多项选择题格式，并提供过滤和非过滤版本。数据集使用可扩展的管道创建，利用Wikidata识别文化概念，从Wikimedia Commons收集相应图像，并生成基于事实的VQA对。数据以.tar.gz存档形式提供图像，并以JSON文件形式提供VQA数据，可通过huggingface-cli命令下载和使用。

提供机构：

NeuLab @ LTI/CMU

创建时间：

2025-07-26

原始信息汇总

CulturalGround 数据集概述

📜 数据集描述

名称: CulturalGround
目的: 为多语言多模态语言模型提供丰富的文化知识基础
类型: 视觉问答(VQA)数据集
规模: 10M<n<100M
语言: 覆盖39种语言
国家/地区: 覆盖42个国家/地区
数据量: 超过2100万VQA对

📊 核心特点

多语言性
- 支持39种语言
- 包括主要语种(英、法、德等)和少数语种(伊博语、阿姆哈拉语等)
多模态性
- 包含视觉(图像)和文本(问答对)数据
- 每个文化实体收集1-3张图片
文化多样性
- 聚焦标准训练语料中代表性不足的文化概念
- 覆盖全球42个国家/地区的文化实体

📂 数据组成

主要分割
- 开放式VQA(未过滤): 完整生成的开放式问题
- 过滤后开放式VQA: 经VLM筛选的高质量子集
- 过滤后多选题VQA: 高质量多选题和判断题
数据来源
- 文化实体: 来自Wikidata
- 图像: 来自Wikimedia Commons
- 问答对: 基于76种文化属性生成

📈 关键统计

按国家分布
- 总实体: 1,888,610
- 总图像: 2,879,840
- 总问答对: 21,986,501(未过滤开放式), 14,207,683(过滤后开放式)
按语言分布
- 英语数据量最大(3,778,963未过滤开放式)
- 包含多种低资源语言数据(如阿姆哈拉语3,975未过滤开放式)

🛠️ 使用方式

数据下载 bash huggingface-cli download neulab/CulturalGround CultureGroundImages/germany.tar.gz --repo-type dataset --local-dir ./
数据解压 bash tar -xvf germany.tar.gz

📄 引用信息

bibtex @inproceedings{nyandwi2025grounding, title={Grounding Multilingual Multimodal LLMs With Cultural Knowledge}, author={Nyandwi, Jean de Dieu and Song, Yueqi and Khanuja, Simran and Neubig, Graham}, year={2025} }

📞 联系方式

联系人: {jeandedi, yueqis, skhanuja, gneubig}@cs.cmu.edu

搜集汇总

数据集介绍

构建方式

CulturalGround数据集通过系统化流程构建，首先从Wikidata中识别具有文化意义的实体，随后从Wikimedia Commons收集每个实体1-3张相关图像。基于76种文化属性，采用模板化方法生成视觉问答对，形成初始数据集。为确保数据质量，研究团队进一步使用视觉语言模型对开放性问题进行过滤，并构建了多选题版本。该数据集最终涵盖42个国家和39种语言，形成超过2100万对多模态数据。

特点

作为跨文化研究的突破性资源，CulturalGround最显著的特点是其前所未有的文化覆盖广度。数据集包含德语、法语、日语等39种语言的视觉问答对，特别关注标准语料库中代表性不足的文化实体。数据采用三级分类体系：原始开放性问题、经过筛选的开放性问题以及精心设计的多选题，满足不同研究需求。每个国家的文化实体数量从数百到数十万不等，德国以33万实体位居首位，确保文化代表性的层次丰富。

使用方法

研究者可通过HuggingFace平台获取按国家分类的数据包，每个压缩文件包含相应国家的图像资源及配套JSON格式的问答数据。使用huggingface-cli工具下载特定国家数据后，通过标准解压命令即可获取图像文件。数据集支持多种应用场景：开放性问题适用于生成式模型训练，多选题版本可用于分类模型评估。为保障研究可复现性，建议引用配套的学术论文，该论文详细阐述了数据采集和清洗的方法论。

背景与挑战

背景概述

CulturalGround数据集由卡内基梅隆大学的研究团队于2025年创建，旨在解决多语言多模态大语言模型在文化知识理解方面的局限性。该数据集覆盖42个国家和39种语言，包含超过2100万视觉问答对，重点关注标准训练语料中代表性不足的文化实体。通过利用Wikidata识别文化概念、从Wikimedia Commons收集图像，并生成基于事实的视觉问答对，该数据集为跨文化理解和多模态学习提供了重要资源。其创新性在于首次系统性地整合了视觉与文本模态的文化知识，对促进全球化人工智能发展具有里程碑意义。

当前挑战

CulturalGround数据集面临的核心挑战体现在两个方面：领域问题上，现有视觉问答模型对文化特定概念的理解存在显著偏差，难以准确捕捉不同文化背景下的隐含语义；数据构建上，跨语言文化实体的对齐与标注需要克服语言资源不均衡、文化表征差异等难题。具体而言，数据收集过程中需处理小语种图像稀缺性问题，确保文化属性的准确标注；在质量把控方面，需设计多层级过滤机制以应对自动生成问答对时产生的噪声，同时维持文化多样性与数据平衡性。

常用场景

经典使用场景

CulturalGround数据集在跨文化视觉问答（VQA）研究中展现出卓越价值，尤其适用于训练和评估多语言多模态大语言模型。其覆盖42个国家、39种语言的特性，为研究者提供了丰富的文化语境数据，使得模型能够在不同文化背景下理解和生成准确回答。该数据集常用于测试模型对文化特定实体（如历史遗迹、传统服饰）的识别与解释能力，成为跨文化人工智能研究的基础设施。

实际应用

在全球化数字服务领域，CulturalGround支撑着跨文化应用的开发。教育科技公司利用其构建多语言文化认知工具，跨境电商平台基于该数据集优化商品的文化适配性描述，国际新闻机构则借助其训练自动化的多文化图像标注系统。联合国教科文组织等机构使用该数据集监测AI系统的文化包容性表现。

衍生相关工作

该数据集催生了CulturalPangea-7B等标志性多文化模型，并启发了一系列跨文化研究。Neubig团队据此提出文化知识嵌入评估框架CULTUREBENCH，微软研究院开发了文化敏感的视觉描述生成器。相关论文在ACL、EMNLP等顶会形成专门研讨方向，推动建立了AI文化智能评估的新范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集