csebuetnlp/BanglaSocialBias
收藏Hugging Face2024-07-08 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/csebuetnlp/BanglaSocialBias
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为‘Bangla Social Bias’,用于论文‘Social Bias in Large Language Models For Bangla: An Empirical Study on Gender and Religious Bias’。它包含多个领域的数据,包括从开放源收集的原始数据、用于实验的精选数据、实验用模板和形容词词、以及用于大型语言模型(LLMs)的提示。数据集按照资源描述框架(RDF)标准组织,包含性别和宗教偏见的数据。数据由母语为孟加拉语的人士精选,包括基于模板和自然来源的探测方法。该数据集旨在通过在孟加拉语中的推理/探测来发现LLMs中的偏见。
The dataset, titled Bangla Social Bias, is used in the paper Social Bias in Large Language Models For Bangla: An Empirical Study on Gender and Religious Bias. It contains various domains of data including raw data collected from open sources, refined data used for experiments, templates and adjective words for experiments, and prompts for large language models (LLMs). The dataset is organized according to the resource description framework (RDF) standards and includes data for both gender and religion bias. The data is curated by native Bengali speakers and includes both template-based and naturally sourced probing methods. The dataset is intended for finding biases in the representations of LLMs through inference/probing in the Bangla language.
提供机构:
csebuetnlp
原始信息汇总
数据集概述
数据集描述
数据类别
-
模板化探测数据:
- 性别偏见:
- 性格基础(正面和负面)
- 观点基础(正面和负面)
- 社区基础(正面和负面)
- 宗教偏见:
- 意识形态基础(正面和负面)
- 观点基础(正面和负面)
- 这些形容词用于特定类别的句子模板中,以创建句子。为了检查更细微的变化,还包含了“职业”类别,可以与上述类别合并用于提示创建。
- 性别偏见:
-
自然来源探测数据:
- 使用自然来源的句子,特别是来自BIBED数据集的显式偏见评估(EBE)数据集。
- 数据经过预处理以消除不规则性,并选择可推广的句子用于性别和宗教的对比人物。
- 使用问答范式进行语言模型提示。
数据结构
-
源数据:
- 模板和形容词由论文作者根据其母语背景精心挑选。
- 自然来源的句子来自BIBED数据集的EBE和IBE部分。
- 数据按照资源描述框架(RDF)标准组织。
-
数据收集和处理:
- BIBED数据集被重新组织为CSV文件格式,以更好地服务于研究目的。
- 数据通过特定的规范化管道进行处理,并过滤掉不可推广的句子。
数据实例
-
模板化探测数据:
- 包含性别和宗教类别的形容词和模板。
- 示例包括职业基础、性格基础、观点基础等类别的提示。
-
自然来源探测数据:
- 使用问答范式进行语言模型提示。
- 示例包括性别和宗教类别的提示。
使用场景
- 该数据集主要用于通过推理/探测方法在孟加拉语领域中检测大型语言模型(LLMs)的偏见。
引用
-
如果使用该数据集或参考该研究,请引用以下论文:
@misc{sadhu2024socialbiaslargelanguage, title={Social Bias in Large Language Models For Bangla: An Empirical Study on Gender and Religious Bias}, author={Jayanta Sadhu and Maneesha Rani Saha and Rifat Shahriyar}, year={2024}, eprint={2407.03536}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.03536}, }
许可证
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



