shainar/BEAD

Name: shainar/BEAD
Creator: shainar
Published: 2024-07-02 18:03:10
License: 暂无描述

Hugging Face2024-07-02 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/shainar/BEAD

下载链接

链接失效反馈

官方服务：

资源简介：

BEADs（跨领域偏见评估）数据集旨在解决识别、量化和减轻语言模型中偏见的关键挑战。该数据集支持多种自然语言处理任务，如文本分类、标记分类和语言生成，便于进行全面的偏见评估研究。数据集采用了混合注释方法，结合了机器学习模型和人工验证，以确保数据的准确性和可靠性。此外，数据集涵盖了多个方面的偏见，如性别、种族、年龄等，并提供了多种配置和分割的数据文件。

The BEADs (Cross-Domain Bias Evaluation) dataset aims to address the critical challenges of identifying, quantifying, and mitigating biases in language models. It supports a range of natural language processing (NLP) tasks, including text classification, token classification, and language generation, enabling comprehensive bias evaluation research. The dataset adopts a hybrid annotation approach that combines machine learning models and human validation to ensure the accuracy and reliability of the data. Additionally, the dataset covers multiple dimensions of bias such as gender, race, age and more, and provides data files with various configurations and data splits.

提供机构：

shainar

原始信息汇总

Bias Evaluation Across Domains (BEADs) Dataset

概述

Bias Evaluation Across Domains (BEADs) Dataset 旨在解决语言模型中识别、量化和缓解偏见的关键挑战。该数据集支持多种NLP任务，促进全面的偏见评估研究。

数据集信息

许可证

许可证类型：creativeml-openrail-m

任务类别

文本分类
标记分类
文本生成
文本到文本生成
表格分类
掩码生成

语言

英语

数据集名称

数据集名称：BEADs

数据集大小

数据集大小：1M<n<10M

配置和数据文件

配置名称：Full_Annotations

数据文件：
- 分割：full
- 路径：0-Full Annotations/Full.csv

配置名称：1-Text_Classification

数据文件：
- 分割：bias_train
- 路径：1-Text-Classification/bias-train.csv
- 分割：bias_valid
- 路径：1-Text-Classification/bias-valid.csv
- 分割：bias_train_instruction
- 路径：1-Text-Classification/bias-train_10k-instruction-data.csv
- 分割：bias_valid_instruction
- 路径：1-Text-Classification/bias-valid_1k-instruction-data.csv
- 分割：sentiment_train
- 路径：1-Text-Classification/sentiment-train.csv
- 分割：sentiment_valid
- 路径：1-Text-Classification/sentiment-valid.csv
- 分割：toxic_train
- 路径：1-Text-Classification/toxic-train.csv
- 分割：toxic_valid
- 路径：1-Text-Classification/toxic-valid.csv
- 分割：multi_label
- 路径：1-Text-Classification/multi-label.csv

配置名称：2-Token_Classification

数据文件：
- 分割：bias_tokens
- 路径：2-Token-Classification/Bias_tokens.csv
- 分割：conll
- 路径：2-Token-Classification/conll.csv
- 分割：conll_bias
- 路径：2-Token-Classification/bias-conll.csv

配置名称：3-Aspects

数据文件：
- 分割：aspects
- 路径：3-Aspects/aspects.csv

配置名称：4-Bias-Quantification-Demographics

数据文件：
- 分割：demographic_template
- 路径：4-Bias-Quantification-Demographics/demographic-template.csv
- 分割：demographic_variation
- 路径：4-Bias-Quantification-Demographics/Demographic-variation.csv
- 分割：stereotype_prompts
- 路径：4-Bias-Quantification-Demographics/stereotype_prompts.csv

配置名称：5-Language-Generation

数据文件：
- 分割：bias_debias_train
- 路径：5-Language-Generation/bias-debias.csv
- 分割：bias_debias_test
- 路径：5-Language-Generation/test.csv

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集