MUREL
收藏arXiv2025-08-04 更新2025-08-06 收录
下载链接:
https://github.com/namazifard/Culture_Neurons
下载链接
链接失效反馈官方服务:
资源简介:
MUREL是一个精心策划的数据集,包含8520万个token,跨越六个不同的文化,用于评估语言模型的文化能力。该数据集由公共资源构建,并按照Liu等人(2025年)提出的分类法系统组织,涵盖了思想、语言和社会三个主要维度,以实现对文化特定和语言现象的有针对性分析。数据集涵盖了从概念、知识、价值观、规范和道德到人工制品的广泛内容,旨在帮助研究人员更好地理解和分析多语言语言模型中的文化知识编码。
提供机构:
University of Tehran
创建时间:
2025-08-04
原始信息汇总
数据集概述
基本信息
- 数据集名称:MUREL (Multilingual Cultural Representation in Language Models)
- 数据规模:85.2 million tokens
- 覆盖文化:6种不同文化(english, german, danish, chinese, russian, persian)
- 覆盖语言:6种语言(en, de, da, zh, ru, fa)
- 关联论文:"Isolating Culture Neurons in Multilingual Large Language Models"
数据集用途
- 用于定位和隔离多语言大语言模型中的文化特定神经元
- 研究文化特定神经元与语言特定神经元的交互作用
- 促进多语言语言模型的公平性、包容性和对齐性研究
数据处理流程
-
数据准备:
- 使用
prepare_language_corpora.py和prepare_culture_corpora.py脚本准备语言和文化语料库 - 输出格式:
data/train/id.{LANG}.train.{mdl}
- 使用
-
激活计算:
- 使用
activation_language_transformers.py和activation_cultural_transformers.py计算语言和文化特定激活
- 使用
-
神经元识别:
- 使用
identify.py识别语言和文化特定神经元 - 生成每种语言和文化的掩码文件
- 使用
-
性能评估:
- 使用
ppl.py评估不同掩码条件下的模型性能 - 包括基线、零语言神经元、零文化神经元、零纯文化神经元和零语言∧文化神经元等条件
- 使用
依赖环境
-
主要工具:
- PyTorch
- Transformers库
- Datasets库
- Accelerate库
-
环境设置:
- 通过
setup.sh脚本设置环境 - 使用pyenv管理Python环境
- 通过
结果分析工具
count_neurons.py:统计神经元数量combine_results.py:合并实验结果plot_all_heatmaps.py:绘制热图可视化结果
支持模型
- Llama-2-7b
- Llama-3.1-8b
- Gemma-3-12b
- Qwen2.5-7b
搜集汇总
数据集介绍

构建方式
MUREL数据集的构建基于六种不同文化的85.2百万标记文本,涵盖了意识形态、语言和社会三个主要维度。通过整合公开可用的文化资源,如全球态度调查、世界价值观调查等,数据集经过系统化分类和标准化处理,以确保文化表达的多样性和代表性。文本数据经过针对性调整,例如将调查项目转化为完整陈述,以保留文化细微差别并标准化输入格式。
使用方法
MUREL数据集主要用于识别和分析多语言大模型中的文化特异性神经元。研究人员可以通过文化激活概率熵(CAPE)方法,测量神经元对不同文化输入的响应,进而区分纯文化特异性神经元和语言文化混合神经元。数据集还支持干预实验,如神经元消融,以验证文化神经元的功能独立性。此外,MUREL可用于评估模型在跨文化语境下的表现,促进文化公平性和包容性研究。
背景与挑战
背景概述
MUREL数据集由德黑兰大学的Danial Namazifard等研究人员于2025年创建,旨在探究多语言大语言模型(LLMs)中文化特异性神经元的编码机制。该数据集包含8520万标记,涵盖六种不同文化背景的文本资源,系统地组织了意识形态、语言和社会三个维度的文化要素。作为首个专注于解构语言模型文化表征的基准数据集,MUREL为理解LLMs如何编码跨文化知识提供了重要实证基础,推动了文化公平性、包容性和对齐性的研究。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,需解决文化表征与语言特征的深度纠缠问题,即如何区分纯文化神经元与语言关联神经元;在构建过程中,需克服多文化语料标注一致性、低资源文化数据稀缺,以及非语言文化要素的文本化编码等难题。此外,数据集的六文化覆盖范围限制了其在更广泛文化场景中的泛化能力,而神经元定位方法对模型架构的依赖性也带来技术局限性。
常用场景
经典使用场景
MUREL数据集在跨文化自然语言处理研究中具有重要价值,尤其在探索多语言大语言模型(LLMs)中文化特异性神经元的定位与干预方面。该数据集通过涵盖六种不同文化的85.2百万标记文本,为研究者提供了丰富的文化背景数据,用于分析模型如何编码和处理文化差异。其经典使用场景包括文化神经元的识别、文化知识在模型中的分布研究,以及文化特异性神经元与语言神经元的分离实验。
解决学术问题
MUREL数据集解决了多语言大语言模型中文化编码的核心学术问题。通过系统化的文化神经元定位方法,研究者能够明确区分文化神经元与语言神经元,从而揭示模型内部文化知识的表示机制。这一突破不仅填补了文化神经元研究的空白,还为模型的文化公平性、包容性和对齐性提供了理论基础。数据集的应用使得研究者能够量化文化神经元的功能,验证其独立性,并探索跨文化知识的神经基础。
实际应用
在实际应用中,MUREL数据集为开发具有文化敏感性的自然语言处理系统提供了关键支持。例如,在机器翻译、跨文化对话系统和内容生成任务中,基于该数据集的文化神经元分析可以帮助调整模型输出,使其更符合特定文化的价值观和表达习惯。此外,该数据集还可用于评估和提升多语言模型在全球化应用中的文化适应性,如国际商务沟通、教育内容本地化等场景。
数据集最近研究
最新研究方向
MUREL数据集的最新研究方向聚焦于多语言大语言模型(LLMs)中文化神经元的定位与分离。该研究通过引入文化激活概率熵(CAPE)方法,成功识别出与文化相关的神经元,并进一步分离出独立于语言编码的纯文化神经元。这一发现为理解LLMs如何编码和处理多元文化信息提供了新的视角。研究还表明,这些文化神经元主要分布在模型的上层,且能够通过干预实验独立调控,从而在不影响语言处理的前提下调整模型的文化倾向。这一成果不仅推动了文化公平性和包容性在人工智能领域的发展,还为跨文化评估和模型对齐提供了重要的方法论支持。
相关研究论文
- 1Isolating Culture Neurons in Multilingual Large Language ModelsUniversity of Tehran · 2025年
以上内容由遇见数据集搜集并总结生成



