Camellia

github2025-10-08 更新2025-10-12 收录

下载链接：

https://github.com/tareknaous/camellia

下载链接

链接失效反馈

官方服务：

资源简介：

Camellia是一个用于衡量大型语言模型在亚洲语言中实体中心文化偏见的基准数据集，涵盖9种亚洲语言（中文、日文、韩文、越南文、乌尔都文、印地文、古吉拉特文、马拉地文、马拉雅拉姆文）和6种亚洲文化（中国、日本、韩国、越南、巴基斯坦、印度），包含文化实体和三种类型的掩码上下文：文化基础上下文、文化中性上下文和问答上下文

Camellia is a benchmark dataset developed to evaluate entity-centric cultural biases of large language models (LLMs) in Asian languages. It covers 9 Asian languages, specifically Chinese, Japanese, Korean, Vietnamese, Urdu, Hindi, Gujarati, Marathi, and Malayalam, and 6 Asian cultures: China, Japan, the Republic of Korea, Vietnam, Pakistan, and India. The dataset includes cultural entities and three types of masked contexts, namely culture-grounded contexts, culture-neutral contexts, and question-answering contexts.

创建时间：

2025-10-05

原始信息汇总

Camellia数据集概述

数据集简介

Camellia是一个用于衡量亚洲语言大语言模型中以实体为中心的文化偏见的数据集。该基准涵盖9种亚洲语言和6种亚洲文化。

语言覆盖范围

中文
日文
韩文
越南文
乌尔都文
印地文
古吉拉特文
马拉地文
马拉雅拉姆文

文化覆盖范围

中国文化
日本文化
韩国文化
越南文化
巴基斯坦文化
印度文化

数据集构成

文化实体

包含6种不同实体类型，标注为与每个亚洲文化或西方文化的关联性。

掩码上下文

提供三种类型的掩码上下文：

camellia-grounded：文化基础上下文，仅与每个亚洲文化相关的实体适合作为[MASK]填充
camellia-neutral：文化中立上下文，与任何文化相关的实体都适合作为[MASK]填充
camellia-qa：长上下文，隐式引用[MASK]，支持抽取式问答评估

数据特征

所有上下文和实体都配有英文翻译。

引用格式

@misc{naous2025camelliabenchmarkingculturalbiases, title={Camellia: Benchmarking Cultural Biases in LLMs for Asian Languages}, author={Tarek Naous and Anagha Savit and Carlos Rafael Catalan and Geyang Guo and Jaehyeok Lee and Kyungdon Lee and Lheane Marie Dizon and Mengyu Ye and Neel Kothari and Sahajpreet Singh and Sarah Masud and Tanish Patwa and Trung Thanh Tran and Zohaib Khan and Alan Ritter and JinYeong Bak and Keisuke Sakaguchi and Tanmoy Chakraborty and Yuki Arase and Wei Xu}, year={2025}, eprint={2510.05291}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2510.05291}, }

搜集汇总

数据集介绍

构建方式

在跨文化自然语言处理研究领域，Camellia数据集通过系统化标注框架构建而成。该数据集涵盖九种亚洲语言与六种亚洲文化体系，采用实体与掩码上下文双重结构。文化实体部分基于专家标注将各类名词划分为特定文化关联范畴，掩码上下文则设计为文化锚定、文化中立及问答抽取三类文本模板，所有内容均配备英文平行译文以确保跨语言可比性。

特点

该数据集最显著的特征在于其多维文化覆盖体系，同时囊括汉语、日语等主流语种与古吉拉特语等低资源语言。文化标注维度不仅包含亚洲本土文化圈，还设置西方文化对照组，形成立体化评估基准。特别设计的文化锚定上下文能有效检测模型的文化偏好，而长文本问答场景则拓展了生成式模型的评估边界。

使用方法

研究者可通过加载预定义的实体-上下文对开展文化偏见测评，利用掩码填充任务量化模型输出中的文化关联强度。文化锚定上下文适用于检测模型对特定文化的认知准确度，文化中立语境则用于分析模型的文化平衡性，问答式长文本支持抽取式阅读理解任务的评估。所有数据模块均支持端到端的偏见度量管道构建。

背景与挑战

背景概述

随着大语言模型在自然语言处理领域的广泛应用，其文化偏见问题逐渐成为研究焦点。Camellia数据集由佐治亚理工学院等机构的研究团队于2025年创建，专注于评估大语言模型在亚洲语言中存在的文化偏见现象。该数据集涵盖中文、日语、韩语等九种亚洲语言，以及中国、日本、韩国等六种亚洲文化体系，通过实体标注和语境构建为文化偏见量化研究提供了重要基础。该基准的建立推动了多语言文化公平性研究的发展，为构建更具包容性的人工智能系统奠定了数据基础。

当前挑战

在文化偏见评估领域，如何准确量化大语言模型对不同文化实体的认知偏差是核心难题。Camellia数据集构建过程中面临多重挑战：需要精确界定六种亚洲文化体系的特征边界，确保实体标注的文化代表性；设计兼具文化特定性与文化中立性的语境模板，平衡语言学规范与文化敏感性；处理九种语言的语言学差异与翻译对等性问题，保证跨语言评估的一致性。这些挑战直接关系到文化偏见测量的有效性与可靠性，对数据集构建方法提出了严格要求。

常用场景

经典使用场景

在跨文化自然语言处理研究中，Camellia数据集被广泛用于评估大型语言模型对亚洲语言和文化的理解能力。通过涵盖九种亚洲语言和六种亚洲文化实体，该数据集为研究者提供了标准化的测试平台，用以检测模型在文化相关语境中的表现。其独特的掩码上下文设计，包括文化相关、文化中立和问答式语境，使得模型能够在多样化场景下接受全面评估，从而揭示其文化认知的深度与广度。

实际应用

在实际应用层面，Camellia数据集为多语言服务系统的优化提供了关键支撑。全球科技企业可借助该数据集检测其智能助手、机器翻译等产品在亚洲市场的文化适应性，避免因文化误解导致的服务偏差。教育机构也能利用其评估语言学习软件的文化教学内容，确保知识传递的准确性与尊重性，最终促进跨文化沟通的顺畅进行。

衍生相关工作

基于Camellia数据集的研究已催生系列重要成果，包括跨文化偏见缓解算法的开发与多语言模型公平性评估框架的建立。这些衍生工作不仅深化了对语言模型文化认知机制的理解，更推动了如文化感知预训练、动态去偏见微调等创新方法的涌现。相关研究进一步拓展至数字人文领域，为文化遗产的智能化保存与传播提供了技术路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集