CulturalGround

github2025-08-15 更新2025-08-30 收录

下载链接：

https://github.com/neulab/CulturalGround

下载链接

链接失效反馈

官方服务：

资源简介：

CulturalGround数据集包含3000万个高质量（2200万个开放式问题，800万个多项选择题样本）、富含文化内涵的视觉问答对，涵盖42个国家和39种语言，从Wikidata精心策划而来

The CulturalGround Dataset comprises 30 million high-quality, culturally rich visual question-answer pairs, including 22 million open-ended and 8 million multiple-choice question samples. Spanning 42 countries and covering 39 languages, this dataset was meticulously curated from Wikidata.

创建时间：

2025-07-30

原始信息汇总

CulturalGround 数据集概述

数据集基本信息

名称：CulturalGround
类型：视觉问答（VQA）数据集
规模：包含3000万个高质量样本（2200万个开放式问答样本，800万个多项选择样本）
语言覆盖：39种语言
地理覆盖：涵盖42个国家
数据来源：基于Wikidata精心策划

核心特点

文化丰富性：专注于全球文化实体的多语言多模态理解
高质量标注：所有问答对均经过精心筛选和标注
多模态结构：结合图像和文本的多模态数据格式

数据格式

数据集遵循LLaVA格式，每个实例包含以下字段：

id：数据样本的唯一标识符
image：图像文件路径
conversations：人类与模型之间的对话序列
language：对话使用的语言

对话结构包含：

from：发言者身份（"human"或"gpt"）
value：消息内容，包括文本和图像标记

应用场景

多语言多模态大模型训练：专门用于训练理解文化实体的模型
文化知识理解评估：评估模型对长尾文化实体的理解能力
跨文化研究：支持跨语言和跨文化的多模态研究

获取方式

数据集可通过Hugging Face平台获取：https://huggingface.co/datasets/neulab/CulturalGround

引用信息

如需在研究中使用本数据集，请引用相关arXiv论文：https://arxiv.org/abs/2508.07414

搜集汇总

数据集介绍

构建方式

在跨文化计算语言学领域，CulturalGround数据集通过系统化流程构建而成。其数据源自Wikidata知识库，涵盖42个国家与39种语言的文化实体，采用自动化与人工校验相结合的方式筛选高质量视觉问答对。构建过程包含实体提取、多语言对齐、图像关联与问答生成四个核心环节，最终形成3000万条兼具文化多样性与语义深度的多模态样本。

特点

该数据集的核心特征体现在其文化多样性与多模态融合的深度。数据覆盖全球主要文化圈层的视觉表征，包含2200万开放式问答与800万选择题样本，每个样本均关联文化实体的图像与多语言描述。数据格式遵循LLaVA标准，支持图像-文本对话交互，且所有对话均标注语言标签，为跨文化多模态研究提供结构化支撑。

使用方法

研究者可通过Hugging Face平台直接加载数据集，使用LLaVA-NeXT框架进行多模态模型训练。数据以JSON格式存储，包含图像路径、对话序列及语言标识符。训练时需将图像压缩包与标注文件同步加载，通过微调脚本适配下游任务。评估阶段可采用lmms-eval工具包在CVQA、MARVL等文化敏感基准测试中验证模型性能。

背景与挑战

背景概述

随着多模态大语言模型在跨语言视觉理解任务中的广泛应用，其在处理文化长尾实体时表现出的认知偏差逐渐成为研究焦点。CulturalGround数据集由卡内基梅隆大学Neubig教授团队于2025年创建，旨在通过从Wikidata精心筛选的3000万条高质量视觉问答对，覆盖42个国家与39种语言的文化实体，为多模态模型提供深层次的文化背景嵌入。该数据集通过构建文化敏感的评估基准，显著提升了模型在跨文化场景下的语义理解精度，为全球化人工智能应用奠定了数据基础。

当前挑战

该数据集致力于解决多模态模型在跨文化视觉问答任务中存在的实体认知偏差问题，其构建面临三重核心挑战：一是需要从多语言知识图谱中精准提取具有文化特异性的实体及其视觉表征，二是需平衡不同文化区域的数据覆盖度以避免表征偏差，三是需设计兼顾开放性与多选择形式的问答框架以确保模型既掌握文化常识又具备推理能力。这些挑战直接关系到模型在真实跨文化场景中的实用性与公平性。

常用场景

经典使用场景

在跨文化多模态理解研究中，CulturalGround数据集被广泛应用于视觉问答任务的训练与评估。该数据集通过涵盖42个国家、39种语言的3000万高质量文化相关样本，为多模态大语言模型提供了丰富的跨文化视觉文本对齐数据。研究者通常利用其开放性问题与多项选择题组合，训练模型识别文化实体、理解地域特色视觉元素，并生成符合文化语境的自然语言描述。

衍生相关工作

该数据集直接催生了CulturalPangea模型的发展，该模型在文化专项评测中达到开源模型最优性能。后续研究基于其数据构建了跨文化视觉推理基准CVQA，推动了文化认知计算领域的标准化评估。多项工作进一步扩展了其在民俗物品识别、传统服饰分类等细分方向的应用，形成了文化计算研究的新范式。

数据集最近研究