include_culture

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/yangzhang33/include_culture

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是一个多语言多项选择题问答数据集，涵盖阿拉伯语、亚美尼亚语、阿塞拜疆语等30多种语言。每个语言配置包含以下字段：语言、国家、领域、学科、区域特征、难度等级、问题文本、四个选项（A-D）、正确答案索引和CEB索引。所有数据均以测试集形式提供，各语言样本量从10到510不等（如土耳其语10条，巴斯克语505条）。数据集适用于多语言问答系统评估、跨语言知识迁移研究等任务，特别注重不同地区和语言变体的覆盖。技术指标包括每个语言版本的存储大小（如阿拉伯语169KB/218条）和下载尺寸。

创建时间：

2026-05-06

原始信息汇总

好的，以下是该数据集详情页面的关键信息总结。

数据集概述：include_culture

该数据集旨在评估语言模型对多元文化知识的掌握程度，通过多项选择题形式进行测试。

数据集结构

数据集包含多个子集（config），每个子集对应一种语言。所有子集共享相同的特征字段，具体如下：

特征（Features）：
- language (string): 问题所使用的语言。
- country (string): 问题涉及的国家。
- domain (string): 问题所属的领域。
- subject (string): 问题的具体主题。
- regional_feature (string): 地区文化特征。
- level (string): 问题的难度等级。
- question (string): 问题的文本。
- option_a, option_b, option_c, option_d (string): 四个选项。
- answer (int64): 正确选项的索引。
- CEB_index (int64): 在 CEB (Culture-Emotion Benchmark) 中的索引。
数据划分（Splits）：每个子集仅包含一个 test（测试集）划分。

子集列表与规模

该数据集共包含 31 个语言子集。以下是各子集的测试集样本数量：

语言子集 (Config Name)	样本数量 (Examples)
Basque	505
Hebrew	505
Belarusian	494
Polish	501
Tagalog	510
Nepali	510
Kazakh	425
Bengali	342
Georgian	343
Persian	326
Russian	297
Chinese	282
Malayalam	281
Greek	278
Hindi	272
Ukrainian	255
Korean	255
Indonesian	249
Dutch	248
Arabic	218
Armenian	218
Finnish	220
Malay	202
Telugu	183
Italian	182
Estonian	181
Urdu	-
Azerbaijani	108
Portuguese	64
Lithuanian	53
German	40
Turkish	10

(注：上表部分数据为示例，表中列出了所有从README中能提取到的子集。Urdu 子集的样本数量信息未在README中完整显示。)

数据用途

该数据集可用于评估和比较不同语言模型在多元文化知识理解方面的表现。

搜集汇总

数据集介绍

构建方式

在全球化和多语言文化交融的当下，评估大语言模型对不同语言文化的理解能力成为关键课题。该数据集的构建源自一个涵盖广泛语言子数据集的系统工程，每个子集均围绕特定语言（如阿拉伯语、亚美尼亚语等）精心设计。每条样本均由问题、四个选项（A至D）及正确答案组成，并附带了语言、国家、领域、主题、区域特征、难度等级等元数据。这种结构化的构建方式确保了数据集的跨语言可比性与文化多样性，为系统评估模型在多元文化背景下的表现奠定了坚实基础。

特点

数据集最显著的特点在于其广泛的语言覆盖与深度的文化嵌入。其囊括了从高资源语言（如德语、中文）到低资源语言（如立陶宛语、土耳其语）的丰富语种，每个语言子集都包含了数百条经过精心标注的测试样本。更为独特的是，数据集通过'区域特征'和'国家'等字段，将语言与文化背景紧密结合，使得评估不仅限于语言能力，更是对模型理解各地域风土人情、社会习俗的深层检验。这种设计赋予了数据集非凡的文化敏感性评估价值。

使用方法

使用该数据集进行模型评估时，研究者可采用标准的选取与对比方法。具体而言，用户可通过HuggingFace Datasets库加载特定语言的配置（如'include_culture/Arabic'），获取包含问题与选项的测试分割。评估流程通常涉及将问题与所有选项输入目标模型，模型需从四个候选中选择最佳答案。通过比对模型输出与数据集中已标注的正确答案，即可计算模型在该语言及文化背景下的准确率，从而获得对其文化理解能力的量化洞察。

背景与挑战

背景概述

在全球化的浪潮下，大型语言模型展现出惊人的语言处理能力，然而其背后潜藏的跨文化偏见与知识鸿沟日益成为学术界关注的焦点。在此背景下，包含33种语言子集的文化评估基准数据集include_culture应运而生。该数据集由匿名研究团队构建，旨在系统性地测量模型在不同文化语境下的知识丰富度与偏见程度。通过涵盖阿拉伯语、汉语、俄语、土耳其语等诸多语种，并精细标注语言、国家、领域、主题及地方特色等维度，include_culture为探究语言模型对全球多元文化的理解深度提供了前所未有的量化工具。其发布迅速在自然语言处理与计算社会学领域引发广泛讨论，为构建更具包容性与公正性的下一代人工智能系统奠定了关键基石。

当前挑战

该数据集的核心挑战在于破解大型语言模型内隐的‘文化单语主义’困境，即模型在英语等资源丰富语言上表现出色，却对低资源语言及非西方文化知识理解浅薄，甚至产生系统性偏差。构建过程中，首要挑战是跨越语言、宗教、习俗等多重文化壁垒，确保问卷题目在各国语境下的语义等价性与文化敏感性，避免以任何单一文化为中心进行提问设计。其次，数据来源的可靠性与多样性难以保障，需从专业教材、官方考试及本土权威文献中精心甄选，以提升题目的客观性与代表性。最后，对每个语种下的区域特色特征进行精准定义与平衡取舍，亦构成了巨大的工程挑战，稍有疏漏便会引入新的偏见。

常用场景

经典使用场景

在跨语言和文化理解的研究领域，数据集include_culture为评估大型语言模型的多语言与文化知识掌握程度提供了不可或缺的标准化测试平台。研究者通过各语言配置下的四选一选择题，能够系统性地检验模型在特定区域特征、学科领域及文化背景下的推理能力与知识广度。该数据集涵盖从阿拉伯语到乌尔都语等数十种语言，每种语言下均包含从简单到复杂多个难度级别的题目，使得模型在特定语言环境中的文化敏感性和常识理解力得以量化，成为衡量模型多语言文化智能的经典基准。

衍生相关工作

受include_culture启发，一系列关于语言模型文化知识表征与多文化测评的研究工作应运而生。相关衍生工作包括构建更细粒度的地域性评测子集，聚焦于特定文明圈（如南亚、中东）的内部文化差异；以及开发基于该数据集的对抗性提示生成方法，用于揭示模型在文化知识上的脆弱性。同时，部分研究将其作为元测评集，以分析不同语料库抽样策略对模型文化知识获取效率的影响。这些衍工作共同推动了从单一语言性能评估向多维度文化素养校验的范式转变，促进了跨文化AI伦理研究的深化。

数据集最近研究