tomekkorbak/pile-detoxify
收藏Hugging Face2023-02-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tomekkorbak/pile-detoxify
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自The Pile的文本,每个句子都根据其毒性进行了注释。每个文档被分割成句子,并使用Detoxify工具对每个句子的毒性进行评分。数据集的目的是为了训练生成语言模型,使其避免生成有毒文本。数据集包含1949977个数据实例,每个实例包含文本、元数据、毒性评分、平均评分和句子数量等信息。数据集仅包含训练集,且所有数据均为英文。数据集的注释是通过Detoxify工具自动生成的,该工具基于RoBERTa模型,并在Jigsaw Unintended Bias in Toxicity Classification数据集上进行了训练。数据集包含有毒文本和个人可识别信息,因此仅建议用于研究目的。
提供机构:
tomekkorbak
原始信息汇总
数据集概述
数据集描述
- 名称: pile-detoxify
- 语言: 英语
- 许可证: MIT
- 多语言性: 单语种
- 大小: 1M<n<10M
- 来源: 扩展自The Pile数据集
- 标签: 毒性, 预训练-人类反馈
- 任务类别: 文本分类, 其他
- 任务ID: 可接受性分类, 仇恨言论检测, 文本评分
数据集结构
数据实例
- 总数: 1949977
数据字段
- texts: 文档中的句子列表,使用SpaCy分割
- meta: 来自The Pile的原始部分信息
- scores: 每个句子的毒性预测分数
- avg_score: 分数列的平均值
- num_sents: 文档中的句子数量
数据分割
- 训练集: 是
数据集创建
来源数据
- 初始数据收集: 来自The Pile的标记文本
- 语言生产者: 请参阅The Pile
注释
- 注释过程: 使用Detoxify对每个句子进行毒性评分
- 注释者: Detoxify
个人信息和敏感信息
- 包含内容: 个人可识别信息和毒性文本
使用数据注意事项
社会影响
- 包含内容: 毒性文本和个人可识别信息
- 使用建议: 仅供研究使用,不建议部署训练的模型
偏见讨论
- 包含偏见: 来自The Pile的偏见
其他已知限制
- 毒性文本检测: 使用不完全准确的自动化方法



