tomekkorbak/pile-detoxify

Name: tomekkorbak/pile-detoxify
Creator: tomekkorbak
Published: 2023-02-07 15:31:11
License: 暂无描述

Hugging Face2023-02-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tomekkorbak/pile-detoxify

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自The Pile的文本，每个句子都根据其毒性进行了注释。每个文档被分割成句子，并使用Detoxify工具对每个句子的毒性进行评分。数据集的目的是为了训练生成语言模型，使其避免生成有毒文本。数据集包含1949977个数据实例，每个实例包含文本、元数据、毒性评分、平均评分和句子数量等信息。数据集仅包含训练集，且所有数据均为英文。数据集的注释是通过Detoxify工具自动生成的，该工具基于RoBERTa模型，并在Jigsaw Unintended Bias in Toxicity Classification数据集上进行了训练。数据集包含有毒文本和个人可识别信息，因此仅建议用于研究目的。

提供机构：

tomekkorbak

原始信息汇总

数据集概述

数据集描述

名称: pile-detoxify
语言: 英语
许可证: MIT
多语言性: 单语种
大小: 1M<n<10M
来源: 扩展自The Pile数据集
标签: 毒性, 预训练-人类反馈
任务类别: 文本分类, 其他
任务ID: 可接受性分类, 仇恨言论检测, 文本评分

数据集结构

数据实例

总数: 1949977

数据字段

texts: 文档中的句子列表，使用SpaCy分割
meta: 来自The Pile的原始部分信息
scores: 每个句子的毒性预测分数
avg_score: 分数列的平均值
num_sents: 文档中的句子数量

数据分割

训练集: 是

数据集创建

来源数据

初始数据收集: 来自The Pile的标记文本
语言生产者: 请参阅The Pile

注释

注释过程: 使用Detoxify对每个句子进行毒性评分
注释者: Detoxify

个人信息和敏感信息

包含内容: 个人可识别信息和毒性文本

使用数据注意事项

社会影响

包含内容: 毒性文本和个人可识别信息
使用建议: 仅供研究使用，不建议部署训练的模型

偏见讨论

包含偏见: 来自The Pile的偏见

其他已知限制

毒性文本检测: 使用不完全准确的自动化方法

5,000+

优质数据集

54 个

任务类型

进入经典数据集