Camellia
收藏Camellia数据集概述
数据集简介
Camellia是一个用于衡量亚洲语言大语言模型中以实体为中心的文化偏见的数据集。该基准涵盖9种亚洲语言和6种亚洲文化。
语言覆盖范围
- 中文
- 日文
- 韩文
- 越南文
- 乌尔都文
- 印地文
- 古吉拉特文
- 马拉地文
- 马拉雅拉姆文
文化覆盖范围
- 中国文化
- 日本文化
- 韩国文化
- 越南文化
- 巴基斯坦文化
- 印度文化
数据集构成
文化实体
包含6种不同实体类型,标注为与每个亚洲文化或西方文化的关联性。
掩码上下文
提供三种类型的掩码上下文:
- camellia-grounded:文化基础上下文,仅与每个亚洲文化相关的实体适合作为[MASK]填充
- camellia-neutral:文化中立上下文,与任何文化相关的实体都适合作为[MASK]填充
- camellia-qa:长上下文,隐式引用[MASK],支持抽取式问答评估
数据特征
所有上下文和实体都配有英文翻译。
相关论文
Camellia: Benchmarking Cultural Biases in LLMs for Asian Languages,arXiv 2025
引用格式
@misc{naous2025camelliabenchmarkingculturalbiases, title={Camellia: Benchmarking Cultural Biases in LLMs for Asian Languages}, author={Tarek Naous and Anagha Savit and Carlos Rafael Catalan and Geyang Guo and Jaehyeok Lee and Kyungdon Lee and Lheane Marie Dizon and Mengyu Ye and Neel Kothari and Sahajpreet Singh and Sarah Masud and Tanish Patwa and Trung Thanh Tran and Zohaib Khan and Alan Ritter and JinYeong Bak and Keisuke Sakaguchi and Tanmoy Chakraborty and Yuki Arase and Wei Xu}, year={2025}, eprint={2510.05291}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2510.05291}, }




