five

CultureGround

收藏
Hugging Face2025-07-31 更新2025-08-01 收录
下载链接:
https://huggingface.co/datasets/neulab/CultureGround
下载链接
链接失效反馈
官方服务:
资源简介:
CulturalGround是一个大规模的多语言、多模态视觉问答(VQA)数据集,旨在为语言模型提供丰富的文化知识。该数据集包含超过2100万对VQA,涵盖42个国家和39种语言,重点关注在标准训练语料库中通常代表性不足的文化实体。数据集分为开放式和多项选择题格式,并提供过滤和非过滤版本。数据集使用可扩展的管道创建,利用Wikidata识别文化概念,从Wikimedia Commons收集相应图像,并生成基于事实的VQA对。数据以.tar.gz存档形式提供图像,并以JSON文件形式提供VQA数据,可通过huggingface-cli命令下载和使用。
提供机构:
NeuLab @ LTI/CMU
创建时间:
2025-07-26
原始信息汇总

CulturalGround 数据集概述

📜 数据集描述

  • 名称: CulturalGround
  • 目的: 为多语言多模态语言模型提供丰富的文化知识基础
  • 类型: 视觉问答(VQA)数据集
  • 规模: 10M<n<100M
  • 语言: 覆盖39种语言
  • 国家/地区: 覆盖42个国家/地区
  • 数据量: 超过2100万VQA对

📊 核心特点

  1. 多语言性

    • 支持39种语言
    • 包括主要语种(英、法、德等)和少数语种(伊博语、阿姆哈拉语等)
  2. 多模态性

    • 包含视觉(图像)和文本(问答对)数据
    • 每个文化实体收集1-3张图片
  3. 文化多样性

    • 聚焦标准训练语料中代表性不足的文化概念
    • 覆盖全球42个国家/地区的文化实体

📂 数据组成

  1. 主要分割

    • 开放式VQA(未过滤): 完整生成的开放式问题
    • 过滤后开放式VQA: 经VLM筛选的高质量子集
    • 过滤后多选题VQA: 高质量多选题和判断题
  2. 数据来源

    • 文化实体: 来自Wikidata
    • 图像: 来自Wikimedia Commons
    • 问答对: 基于76种文化属性生成

📈 关键统计

  1. 按国家分布

    • 总实体: 1,888,610
    • 总图像: 2,879,840
    • 总问答对: 21,986,501(未过滤开放式), 14,207,683(过滤后开放式)
  2. 按语言分布

    • 英语数据量最大(3,778,963未过滤开放式)
    • 包含多种低资源语言数据(如阿姆哈拉语3,975未过滤开放式)

🛠️ 使用方式

  1. 数据下载 bash huggingface-cli download neulab/CulturalGround CultureGroundImages/germany.tar.gz --repo-type dataset --local-dir ./

  2. 数据解压 bash tar -xvf germany.tar.gz

📄 引用信息

bibtex @inproceedings{nyandwi2025grounding, title={Grounding Multilingual Multimodal LLMs With Cultural Knowledge}, author={Nyandwi, Jean de Dieu and Song, Yueqi and Khanuja, Simran and Neubig, Graham}, year={2025} }

📞 联系方式

  • 联系人: {jeandedi, yueqis, skhanuja, gneubig}@cs.cmu.edu
搜集汇总
数据集介绍
main_image_url
构建方式
CulturalGround数据集通过系统化流程构建,首先从Wikidata中识别具有文化意义的实体,随后从Wikimedia Commons收集每个实体1-3张相关图像。基于76种文化属性,采用模板化方法生成视觉问答对,形成初始数据集。为确保数据质量,研究团队进一步使用视觉语言模型对开放性问题进行过滤,并构建了多选题版本。该数据集最终涵盖42个国家和39种语言,形成超过2100万对多模态数据。
特点
作为跨文化研究的突破性资源,CulturalGround最显著的特点是其前所未有的文化覆盖广度。数据集包含德语、法语、日语等39种语言的视觉问答对,特别关注标准语料库中代表性不足的文化实体。数据采用三级分类体系:原始开放性问题、经过筛选的开放性问题以及精心设计的多选题,满足不同研究需求。每个国家的文化实体数量从数百到数十万不等,德国以33万实体位居首位,确保文化代表性的层次丰富。
使用方法
研究者可通过HuggingFace平台获取按国家分类的数据包,每个压缩文件包含相应国家的图像资源及配套JSON格式的问答数据。使用huggingface-cli工具下载特定国家数据后,通过标准解压命令即可获取图像文件。数据集支持多种应用场景:开放性问题适用于生成式模型训练,多选题版本可用于分类模型评估。为保障研究可复现性,建议引用配套的学术论文,该论文详细阐述了数据采集和清洗的方法论。
背景与挑战
背景概述
CulturalGround数据集由卡内基梅隆大学的研究团队于2025年创建,旨在解决多语言多模态大语言模型在文化知识理解方面的局限性。该数据集覆盖42个国家和39种语言,包含超过2100万视觉问答对,重点关注标准训练语料中代表性不足的文化实体。通过利用Wikidata识别文化概念、从Wikimedia Commons收集图像,并生成基于事实的视觉问答对,该数据集为跨文化理解和多模态学习提供了重要资源。其创新性在于首次系统性地整合了视觉与文本模态的文化知识,对促进全球化人工智能发展具有里程碑意义。
当前挑战
CulturalGround数据集面临的核心挑战体现在两个方面:领域问题上,现有视觉问答模型对文化特定概念的理解存在显著偏差,难以准确捕捉不同文化背景下的隐含语义;数据构建上,跨语言文化实体的对齐与标注需要克服语言资源不均衡、文化表征差异等难题。具体而言,数据收集过程中需处理小语种图像稀缺性问题,确保文化属性的准确标注;在质量把控方面,需设计多层级过滤机制以应对自动生成问答对时产生的噪声,同时维持文化多样性与数据平衡性。
常用场景
经典使用场景
CulturalGround数据集在跨文化视觉问答(VQA)研究中展现出卓越价值,尤其适用于训练和评估多语言多模态大语言模型。其覆盖42个国家、39种语言的特性,为研究者提供了丰富的文化语境数据,使得模型能够在不同文化背景下理解和生成准确回答。该数据集常用于测试模型对文化特定实体(如历史遗迹、传统服饰)的识别与解释能力,成为跨文化人工智能研究的基础设施。
实际应用
在全球化数字服务领域,CulturalGround支撑着跨文化应用的开发。教育科技公司利用其构建多语言文化认知工具,跨境电商平台基于该数据集优化商品的文化适配性描述,国际新闻机构则借助其训练自动化的多文化图像标注系统。联合国教科文组织等机构使用该数据集监测AI系统的文化包容性表现。
衍生相关工作
该数据集催生了CulturalPangea-7B等标志性多文化模型,并启发了一系列跨文化研究。Neubig团队据此提出文化知识嵌入评估框架CULTUREBENCH,微软研究院开发了文化敏感的视觉描述生成器。相关论文在ACL、EMNLP等顶会形成专门研讨方向,推动建立了AI文化智能评估的新范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作