shainar/BEAD
收藏Hugging Face2024-07-02 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/shainar/BEAD
下载链接
链接失效反馈官方服务:
资源简介:
BEADs(跨领域偏见评估)数据集旨在解决识别、量化和减轻语言模型中偏见的关键挑战。该数据集支持多种自然语言处理任务,如文本分类、标记分类和语言生成,便于进行全面的偏见评估研究。数据集采用了混合注释方法,结合了机器学习模型和人工验证,以确保数据的准确性和可靠性。此外,数据集涵盖了多个方面的偏见,如性别、种族、年龄等,并提供了多种配置和分割的数据文件。
The BEADs (Cross-Domain Bias Evaluation) dataset aims to address the critical challenges of identifying, quantifying, and mitigating biases in language models. It supports a range of natural language processing (NLP) tasks, including text classification, token classification, and language generation, enabling comprehensive bias evaluation research. The dataset adopts a hybrid annotation approach that combines machine learning models and human validation to ensure the accuracy and reliability of the data. Additionally, the dataset covers multiple dimensions of bias such as gender, race, age and more, and provides data files with various configurations and data splits.
提供机构:
shainar
原始信息汇总
Bias Evaluation Across Domains (BEADs) Dataset
概述
Bias Evaluation Across Domains (BEADs) Dataset 旨在解决语言模型中识别、量化和缓解偏见的关键挑战。该数据集支持多种NLP任务,促进全面的偏见评估研究。
数据集信息
许可证
- 许可证类型:creativeml-openrail-m
任务类别
- 文本分类
- 标记分类
- 文本生成
- 文本到文本生成
- 表格分类
- 掩码生成
语言
- 英语
数据集名称
- 数据集名称:BEADs
数据集大小
- 数据集大小:1M<n<10M
配置和数据文件
配置名称:Full_Annotations
- 数据文件:
- 分割:full
- 路径:0-Full Annotations/Full.csv
配置名称:1-Text_Classification
- 数据文件:
- 分割:bias_train
- 路径:1-Text-Classification/bias-train.csv
- 分割:bias_valid
- 路径:1-Text-Classification/bias-valid.csv
- 分割:bias_train_instruction
- 路径:1-Text-Classification/bias-train_10k-instruction-data.csv
- 分割:bias_valid_instruction
- 路径:1-Text-Classification/bias-valid_1k-instruction-data.csv
- 分割:sentiment_train
- 路径:1-Text-Classification/sentiment-train.csv
- 分割:sentiment_valid
- 路径:1-Text-Classification/sentiment-valid.csv
- 分割:toxic_train
- 路径:1-Text-Classification/toxic-train.csv
- 分割:toxic_valid
- 路径:1-Text-Classification/toxic-valid.csv
- 分割:multi_label
- 路径:1-Text-Classification/multi-label.csv
配置名称:2-Token_Classification
- 数据文件:
- 分割:bias_tokens
- 路径:2-Token-Classification/Bias_tokens.csv
- 分割:conll
- 路径:2-Token-Classification/conll.csv
- 分割:conll_bias
- 路径:2-Token-Classification/bias-conll.csv
配置名称:3-Aspects
- 数据文件:
- 分割:aspects
- 路径:3-Aspects/aspects.csv
配置名称:4-Bias-Quantification-Demographics
- 数据文件:
- 分割:demographic_template
- 路径:4-Bias-Quantification-Demographics/demographic-template.csv
- 分割:demographic_variation
- 路径:4-Bias-Quantification-Demographics/Demographic-variation.csv
- 分割:stereotype_prompts
- 路径:4-Bias-Quantification-Demographics/stereotype_prompts.csv
配置名称:5-Language-Generation
- 数据文件:
- 分割:bias_debias_train
- 路径:5-Language-Generation/bias-debias.csv
- 分割:bias_debias_test
- 路径:5-Language-Generation/test.csv
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



