xcr_bench
收藏Hugging Face2026-01-22 更新2026-01-23 收录
下载链接:
https://huggingface.co/datasets/mohsinulkabir14/xcr_bench
下载链接
链接失效反馈官方服务:
资源简介:
XCR-Bench是一个人工标注的多任务基准测试,用于评估大型语言模型(LLMs)的跨文化推理能力。它提供了高质量的并行数据,标注了文化特定项目(CSIs)并映射到Hall的文化三元组,支持系统评估文化能力。数据集包含4900多个并行句子,1098个独特的CSIs,涵盖中文、阿拉伯语、孟加拉语(西孟加拉和孟加拉国)四种目标文化。支持的任务包括CSI识别、CSI预测和CSI适应。
创建时间:
2026-01-21
原始信息汇总
XCR-Bench 数据集概述
数据集基本信息
- 数据集名称:XCR-Bench: Cross-Cultural Reasoning Benchmark
- 许可协议:CC BY-NC-ND 4.0
- 任务类别:掩码填充、文本生成、翻译
- 涉及语言:英语、孟加拉语、中文、阿拉伯语
- 标签:文化、推理
- 数据规模:1K<n<10K
数据集简介
XCR-Bench 是一个人工标注的多任务基准数据集,用于评估大语言模型的跨文化推理能力。它提供高质量并行数据,标注了文化特定项目,并映射到霍尔的三种文化层次,支持对超越表层文化产物的文化能力进行系统评估。
数据集内容与结构
- 数据总量:超过 4,900 条并行句子
- 文化特定项目:1,098 个独特的文化特定项目
- 标注维度:
- 基于纽马克框架的文化特定项目类别
- 霍尔的三种文化层次
- 语内与语际适应
- 目标文化:中文、阿拉伯语、孟加拉语(西孟加拉邦)、孟加拉语(孟加拉国)
- 核心任务:
- 文化特定项目识别:检测西方(美国/英国)句子中的文化特定项目
- 文化特定项目预测:根据掩码上下文预测合适的西方文化特定项目
- 文化特定项目适应:将文化特定项目从西方文化适应到目标文化(语内或语际)
文件结构
数据集包含以下主要文件:
xcr_bench_base_corpus.csvxcr_bench_chinese_adaptation.csvxcr_bench_arabic_adaptation.csvxcr_bench_bengali_bangladesh_adaptation.csvxcr_bench_bengali_west_bengal_adaptation.csv
每个数据实例包含原始句子、文化语境、文化特定项目类别、文化特定项目霍尔映射、霍尔文化层次(可见/半可见/不可见)以及针对每种文化的适应等价物。
评估指标
- 文化特定项目识别:精确跨度匹配(硬指标)、基于编辑距离的相似度(软指标)
- 文化特定项目预测:精确匹配(硬指标)、Sentence-BERT 语义相似度(软指标)
- 文化特定项目适应:CSI-BERT 和 SENT-BERT 分数(软指标)
相关资源
- 论文地址:https://arxiv.org/abs/2601.14063
- GitHub 仓库:https://github.com/mohsinulkabir14/xcr_bench
搜集汇总
数据集介绍

构建方式
在跨文化自然语言处理领域,构建能够系统评估模型文化推理能力的数据集至关重要。XCR-Bench的构建过程始于从西方文化语境中精心选取原始句子,并由人工标注者识别其中的文化特定项目。这些项目依据纽马克的翻译理论框架进行分类,并映射到霍尔的文化三元模型,以区分可见、半可见及不可见的文化层次。随后,针对中文、阿拉伯语及孟加拉语等目标文化,专家进行了跨语言与语言内的文化适应标注,生成了超过4900句平行语料,确保了数据在文化维度上的深度与广度。
特点
该数据集的核心特征在于其以文化推理为焦点的多任务评估体系。它不仅包含了1098个独特的文化特定项目,还提供了基于霍尔文化三元模型的层次化标注,使得评估能够超越浅层的文化符号,深入模型对文化隐性维度的理解。数据覆盖了四种目标文化区域,并支持文化特定项目识别、预测及适应三项核心任务,同时配备了精确匹配与语义相似度相结合的双重评估指标,为全面衡量语言模型的跨文化能力奠定了坚实基础。
使用方法
使用XCR-Bench时,研究者可依据其设计的三大任务框架展开评估。对于文化特定项目识别任务,模型需接收原始英文句子并输出对应的文化项目文本跨度。在预测任务中,模型需根据含有掩码标记的上下文,生成符合西方文化语境的恰当项目。至于文化适应任务,模型则需将句子中的文化特定项目改编为目标文化的等效表达,并可选择在英语内部进行文化转换或翻译为目标语言。数据集附带的评估脚本实现了精确匹配与语义相似度等量化指标,便于研究者对模型性能进行系统化测量与分析。
背景与挑战
背景概述
随着大型语言模型在多语言与文化语境下的广泛应用,评估其跨文化理解与推理能力成为自然语言处理领域的前沿课题。XCR-Bench数据集由研究人员于2024年提出,旨在系统评估模型在识别、预测与适应文化特定项目方面的能力。该数据集以霍尔文化三元论与纽马克文化项目分类框架为理论基础,构建了涵盖英语、中文、阿拉伯语及孟加拉语的平行语料,包含超过4900个句子与1098个独特文化项目,为量化模型的文化敏感性提供了标准化基准。
当前挑战
在跨文化推理任务中,核心挑战在于模型需超越表层语言模式,深入理解文化背景中可见、半可见及不可见层次的细微差异。具体而言,模型必须准确识别文化特定项目在文本中的语义边界,并依据目标文化的语境进行合理预测与适配,这要求模型具备深层的文化常识与上下文推理能力。在数据集构建过程中,挑战主要集中于文化特定项目的高质量标注,包括跨语言平行句对的收集、文化层级的精确映射,以及适应策略的标准化分类,这些工作均需依赖领域专家的人工审核以确保数据的可靠性与一致性。
常用场景
经典使用场景
在跨文化自然语言处理领域,XCR-Bench数据集被广泛用于评估大型语言模型的跨文化推理能力。其经典使用场景涉及模型在识别、预测和适应文化特定项目(CSIs)方面的系统性测试,例如将西方文化背景的句子中的文化元素适配到中文、阿拉伯语或孟加拉语等目标文化语境中。这一过程不仅检验模型对表层文化符号的理解,更深入探究其基于霍尔文化三元论和纽马克框架的深层文化逻辑推理,为衡量人工智能的文化敏感性提供了标准化实验环境。
衍生相关工作
围绕XCR-Bench衍生的经典研究主要集中在跨文化评估范式的拓展与模型优化方向。部分工作基于其霍尔文化三元论标注体系,开发了分层文化推理评估框架;另有研究利用其CSI适配任务数据,训练了专用于文化元素转换的神经模型。这些衍生工作不仅深化了对语言模型文化认知机制的理论探索,还催生了如文化感知掩码预测、跨文化语义对齐等新型技术路径,持续推动着包容性人工智能研究领域的方法论创新。
数据集最近研究
最新研究方向
在跨文化人工智能领域,XCR-Bench数据集正推动大语言模型文化推理能力的前沿探索。研究聚焦于模型对文化特定项目的深层理解与适应性生成,超越传统的机器翻译评估,将文化能力构建为基于现实场景的推理问题。当前热点集中于利用该数据集的并行标注框架,开发能够识别、预测并跨语境适配文化元素的模型,以应对全球化应用中文化偏见与适应性不足的挑战。这项工作对于促进人工智能在多元文化环境中的公平性与实用性具有深远意义,为构建更具文化敏感性的语言技术奠定了评估基础。
以上内容由遇见数据集搜集并总结生成



