BRAND: Bilingual Religious Accountable Norm Dataset

Name: BRAND: Bilingual Religious Accountable Norm Dataset
Creator: BRAC大学
Published: 2025-12-04 00:38:41
License: 暂无描述

arXiv2025-12-04 更新2025-12-05 收录

下载链接：

https://anonymous.4open.science/r/BRAND/README.md

下载链接

链接失效反馈

官方服务：

资源简介：

BRAND是由BRAC大学团队构建的双语宗教规范数据集，聚焦南亚四大宗教（佛教、基督教、印度教和伊斯兰教），包含2400条英语和孟加拉语的双语条目，数据通过三类提示词系统生成。该数据集采用人工校验和社区参与的方式构建，旨在检测多语言大模型在宗教语境下的偏见问题，特别针对低资源语言孟加拉语存在的系统性偏差。其应用领域包括宗教公平性评估、多语言模型偏见检测，以及促进AI系统在跨文化宗教场景中的负责任发展。

BRAND is a bilingual religious norms dataset developed by the team from BRAC University. Focusing on four major religions in South Asia: Buddhism, Christianity, Hinduism and Islam, it contains 2400 bilingual entries in English and Bengali, with all data generated via three types of prompt systems. Constructed through manual verification and community engagement, this dataset aims to detect bias issues of multilingual large language models (LLMs) in religious contexts, with a particular focus on the systemic biases existing in the low-resource language Bengali. Its application areas include religious fairness assessment, multilingual model bias detection, and promoting the responsible development of AI systems in cross-cultural religious scenarios.

提供机构：

BRAC大学

创建时间：

2025-12-04

原始信息汇总

BRAND: Bilingual Religious Accountable Norm Dataset

📖 概述

BRAND数据集（Bilingual Religious Accountable Norm Dataset）是一个精心构建的数据集，旨在研究大型语言模型（LLMs）中的宗教偏见。它包含2,417条宗教规范，涵盖四种主要的南亚宗教（伊斯兰教、印度教、基督教和佛教），并提供英语和孟加拉语双语版本。

该数据集可用于：

探索宗教和文化背景下的常识推理
分析LLM预测在宗教、人口统计和社会因素方面的偏见
支持计算社会科学、文化分析和NLP公平性领域的研究

📜 许可证

本数据集根据知识共享署名-非商业性使用-相同方式共享 4.0 许可证（CC BY-NC-SA 4.0）发布。

您可以：

共享 — 以任何媒介或格式复制和重新分发数据集
改编 — 混音、转换和基于数据集进行构建

需遵守以下条款：

署名 — 您必须给予BRAND数据集贡献者适当的署名
非商业性使用 — 您不得将此数据集用于商业目的
相同方式共享 — 如果您混音、转换或基于此数据集进行构建，则必须在相同许可证下分发您的工作

📊 数据集构成

宗教	百分比	数量
伊斯兰教	26.9%	~651
印度教	27.4%	~662
基督教	24.4%	~590
佛教	21.3%	~514
总计	100%	2417

🔑 特征

数据集包含13个特征，用于描述每条宗教规范。

🌐 语言

英语
孟加拉语

每个样本均提供两种语言版本，适用于多语言和跨语言研究。

🤖 LLM偏见评估

该数据集已针对多个最先进的LLM进行测试，以评估宗教偏见：

模型	规模
Llama3	70B
Mistral Saba	24B
Gemini 2.0 Flash	-
Gemma3	9B-IT
Qwen3	32B

数据集支持3种类型的提示，专门设计用于测试模型的公平性和偏见。

📂 文件格式

以CSV格式提供（英语 + 孟加拉语版本）
每行 = 一条带有13个标注特征的宗教规范

🔧 使用示例

python import pandas as pd

加载数据集

df = pd.read_csv("BRAND.csv")

预览

print(df.head())

搜集汇总

数据集介绍

构建方式

BRAND数据集的构建采用了双源融合策略，旨在系统性地捕捉南亚四大宗教的规范特征。研究团队从学术文献与宗教典籍中精心筛选了约30%的条目，确保内容的准确性与权威性；同时，利用ChatGPT与DeepSeek等生成模型创造了约70%的条目，以增强语言风格与表达结构的多样性。所有条目均经过具备宗教学背景的专业人员独立校验，修正了表述模糊或重复的内容，最终形成了涵盖佛教、基督教、印度教与伊斯兰教的超过2400条双语规范，每条规范均标注了环境、人口特征、标签与适用范围等13项属性。

特点

该数据集的核心特点在于其深度的宗教语境覆盖与精细的标注体系。它不仅囊括了南亚地区四大宗教的特定规范，还区分了通用性规范与宗教专属规范，从而支持对模型在普遍伦理与特定教义间偏差的检测。每条规范均被赋予“预期”、“常规”与“禁忌”三类道德标签，并关联了年龄、性别、家庭角色等多维人口特征，构建出一个层次丰富的宗教社会学图谱。尤为突出的是，数据集以英语与孟加拉语平行呈现，为探究低资源语言中的宗教偏见提供了独特的跨语言比较基础。

使用方法

BRAND数据集主要用于评估多语言大语言模型在宗教语境下的偏见与分类性能。研究者通过设计三类结构化提示——宗教规范分类、基于规范的宗教识别以及通用规范识别——对模型进行系统测试。在评估时，模型温度设置为零以确保输出的确定性，并要求模型以单一词语作答，避免冗余解释。该数据集支持对模型在特定宗教规范理解、跨宗教关联倾向以及语言差异影响等方面的深入分析，为开发更具文化敏感性与宗教公平性的人工智能系统提供了关键的基准工具。

背景与挑战

背景概述

BRAND数据集由BRAC大学的研究团队于2025年创建，旨在系统评估多语言大语言模型中的宗教偏见问题。该数据集聚焦南亚四大宗教——佛教、基督教、印度教和伊斯兰教，包含超过2400条双语条目，涵盖英语和孟加拉语。其核心研究问题在于揭示多语言模型在处理宗教敏感内容时存在的系统性偏差，特别是模型在低资源语言中可能加剧的宗教误表征现象。该数据集的建立为宗教偏见检测提供了首个针对孟加拉语的双语基准，推动了人工智能伦理领域中对文化多样性公平性的深入探讨。

当前挑战

BRAND数据集致力于解决多语言大语言模型在宗教语境下的偏见检测与分类挑战，其构建过程面临多重困难。在领域问题层面，模型需准确区分宗教规范中的“预期”、“常规”与“禁忌”类别，这要求对宗教教义具有细微理解，而现有模型常将复杂规范简化为二元判断。构建过程中的挑战包括：低资源语言如孟加拉语的高质量宗教文本稀缺，导致数据收集困难；需确保四大宗教的规范表述在神学上的准确性，避免因文化误读引入偏差；以及双语条目在翻译过程中需保持语义一致性与文化适应性，防止语言转换扭曲宗教概念的原意。

常用场景

经典使用场景

在自然语言处理与人工智能伦理研究领域，BRAND数据集被广泛用于评估多语言大语言模型中的宗教偏见。该数据集聚焦于南亚四大宗教——佛教、基督教、印度教和伊斯兰教，包含超过2400条双语条目，为研究者提供了一个系统性的基准工具。通过设计三类不同的提示模板，研究人员能够深入探究模型在英语和孟加拉语语境下对宗教规范的理解与分类能力，从而揭示模型在处理敏感宗教内容时可能存在的系统性偏差。

衍生相关工作

BRAND数据集启发了多项关于宗教与文化偏见检测的延伸研究。例如，Wasi等人基于该数据集进一步探讨了孟加拉语方言中的宗教偏见，揭示了模型对穆斯林与印度教方言的差异化处理。Demidova等人的研究则扩展至多语言辩论场景，分析了基督教、伊斯兰教在不同语言语境中的表征差异。此外，Patel等人借鉴BRAND的设计思路，开发了面向伊斯兰视角的领域特定模型，通过精细调优提升宗教语境下的输出准确性。这些工作共同推动了跨文化、跨宗教的AI公平性评估框架的发展。

数据集最近研究