CulturalGround
收藏Hugging Face2025-08-01 更新2025-08-02 收录
下载链接:
https://huggingface.co/datasets/neulab/CulturalGround
下载链接
链接失效反馈官方服务:
资源简介:
CulturalGround是一个大规模的多语言多模态视觉问答(VQA)数据集,旨在将语言模型与文化知识相结合。它包含超过2100万个VQA对,涵盖了42个国家和39种语言,重点关注标准训练语料库中通常代表性不足的文化实体。该数据集由来自Wikidata的文化概念、来自Wikimedia Commons的相应图像以及基于76个文化属性生成的问答对组成。数据集分为三个主要部分:开放式问答、过滤后的开放式问答和过滤后的多项选择题问答。
提供机构:
NeuLab @ LTI/CMU
创建时间:
2025-07-26
原始信息汇总
CulturalGround 数据集概述
📜 数据集描述
- 目的:为多语言多模态语言模型提供丰富的文化知识基础
- 类型:视觉问答(VQA)数据集
- 规模:超过2100万VQA对
- 覆盖范围:42个国家、39种语言
- 数据来源:基于Wikidata文化概念和Wikimedia Commons图像构建
🌍 数据特征
- 多语言支持:包含39种语言(如英语、法语、德语、中文等)
- 文化多样性:重点关注标准训练语料中代表性不足的文化实体
- 数据形式:
- 开放式VQA(原始和过滤版本)
- 多选题VQA(过滤版本)
📊 核心统计
按国家分布(前5位)
| 国家 | 实体数 | 图像数 | 开放式QA(过滤) | 多选题QA(过滤) |
|---|---|---|---|---|
| 德国 | 332,650 | 350,828 | 1,506,438 | 426,272 |
| 法国 | 268,298 | 276,983 | 1,435,627 | 528,449 |
| 英国 | 175,486 | 328,906 | 1,319,135 | 469,302 |
| 意大利 | 128,821 | 222,351 | 1,323,626 | 653,884 |
| 西班牙 | 124,280 | 216,019 | 906,943 | 545,056 |
按语言分布(前5位)
| 语言 | 开放式QA(过滤) | 多选题QA(过滤) |
|---|---|---|
| 英语 | 2,501,144 | 1,152,830 |
| 法语 | 1,181,935 | 530,004 |
| 德语 | 1,083,314 | 469,522 |
| 荷兰语 | 1,053,835 | 487,091 |
| 西班牙语 | 878,913 | 412,530 |
🛠️ 使用方式
- 数据格式:按国家分组的
.tar.gz图像压缩包和JSON格式VQA数据 - 下载示例: bash huggingface-cli download neulab/CulturalGround CultureGroundImages/germany.tar.gz --repo-type dataset --local-dir ./
📜 引用信息
bibtex @inproceedings{nyandwi2025grounding, title={Grounding Multilingual Multimodal LLMs With Cultural Knowledge}, author={Nyandwi, Jean de Dieu and Song, Yueqi and Khanuja, Simran and Neubig, Graham}, year={2025} }
📞 联系方式
- 邮箱:{jeandedi, yueqis, skhanuja, gneubig}@cs.cmu.edu
搜集汇总
数据集介绍

构建方式
CulturalGround数据集构建采用高度可扩展的自动化流程,通过系统化整合多模态数据源实现。首先基于Wikidata知识库筛选具有文化意义的实体,覆盖42个国家与39种语言,确保文化多样性。随后从Wikimedia Commons采集每个实体对应的1至3张图像,建立视觉与语义的关联。利用预定义模板生成初始问答对,并借助大语言模型优化问题的自然性与清晰度,最终形成超过2200万开放式问答与800万选择题的高质量语料。
使用方法
研究者可通过HuggingFace平台直接下载数据集,按国家分类的图像数据以压缩包形式提供,需使用huggingface-cli工具下载并解压。问答数据以JSON格式存储,包含ID、图像路径、文本及语言标签等字段。该数据集适用于训练与评估多模态大模型的文化认知能力,支持视觉问答、跨语言迁移学习等任务。使用前需确保图像与JSON文件路径对应,具体实现可参考项目提供的代码库与文档说明。
背景与挑战
背景概述
CulturalGround数据集由卡内基梅隆大学Neulab研究团队于2025年创建,旨在解决多模态大语言模型在跨文化理解中的表征偏差问题。该数据集涵盖42个国家、39种语言,包含超过2200万开放性问题与800万选择题对,通过维基数据与 Wikimedia Commons 构建多模态文化实体知识库。其创新性在于首次系统性地将地理文化维度融入视觉问答任务,为跨文化人工智能研究提供了基准性资源。
当前挑战
该数据集致力于解决多模态模型在文化特定场景下的视觉问答挑战,包括文化符号的跨语言表征、低资源语言的语义对齐等问题。构建过程中面临多语言实体标注的一致性维护、文化敏感内容的合规处理、以及百万级图像-文本对的质量控制等难题,需通过维基数据知识图谱与大语言模型协同生成技术实现规模化构建。
常用场景
经典使用场景
在跨文化多模态人工智能研究中,CulturalGround数据集被广泛用于训练和评估多语言视觉问答模型。其经典应用场景包括对文化特定实体的识别与理解,例如模型需要根据图像中的建筑、服饰或饮食等文化元素,用相应语言回答相关问题。这种场景不仅测试模型的多模态融合能力,更检验其跨文化语义理解的深度与准确性。
解决学术问题
该数据集有效解决了多模态模型在文化维度上的表征偏差问题,为跨文化自然语言处理提供了标准化评估基准。通过覆盖42个国家39种语言的文化实体,它使研究者能够量化模型在不同文化语境下的性能差异,推动了对文化适应性、多语言对齐以及知识迁移等核心学术问题的探索,显著提升了模型的文化敏感性与包容性。
实际应用
在实际应用中,CulturalGround支撑了多语言文化教育平台、跨国电商的商品识别系统以及全球化内容审核工具的开发。例如,教育软件可利用该数据集训练模型识别各国历史地标并生成多语言解说,而电商平台则能借助其提升对文化特定商品的描述与推荐准确性,增强跨文化用户体验。
数据集最近研究
最新研究方向
随着多模态大语言模型在跨文化理解任务中的需求日益增长,CulturalGround数据集通过整合42个国家、39种语言的文化实体视觉问答数据,为模型的文化认知能力提供了重要支撑。当前研究聚焦于提升模型对非西方文化语境的理解精度,特别是在民俗符号、历史遗迹和传统艺术等领域的多模态表征学习。该数据集推动了文化适应性评估框架的发展,并助力解决全球化应用中存在的文化偏见问题,为构建更具包容性的人工智能系统奠定数据基础。
以上内容由遇见数据集搜集并总结生成



