five

tomekkorbak/pile-detoxify

收藏
Hugging Face2023-02-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tomekkorbak/pile-detoxify
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自The Pile的文本,每个句子都根据其毒性进行了注释。每个文档被分割成句子,并使用Detoxify工具对每个句子的毒性进行评分。数据集的目的是为了训练生成语言模型,使其避免生成有毒文本。数据集包含1949977个数据实例,每个实例包含文本、元数据、毒性评分、平均评分和句子数量等信息。数据集仅包含训练集,且所有数据均为英文。数据集的注释是通过Detoxify工具自动生成的,该工具基于RoBERTa模型,并在Jigsaw Unintended Bias in Toxicity Classification数据集上进行了训练。数据集包含有毒文本和个人可识别信息,因此仅建议用于研究目的。
提供机构:
tomekkorbak
原始信息汇总

数据集概述

数据集描述

  • 名称: pile-detoxify
  • 语言: 英语
  • 许可证: MIT
  • 多语言性: 单语种
  • 大小: 1M<n<10M
  • 来源: 扩展自The Pile数据集
  • 标签: 毒性, 预训练-人类反馈
  • 任务类别: 文本分类, 其他
  • 任务ID: 可接受性分类, 仇恨言论检测, 文本评分

数据集结构

数据实例

  • 总数: 1949977

数据字段

  • texts: 文档中的句子列表,使用SpaCy分割
  • meta: 来自The Pile的原始部分信息
  • scores: 每个句子的毒性预测分数
  • avg_score: 分数列的平均值
  • num_sents: 文档中的句子数量

数据分割

  • 训练集: 是

数据集创建

来源数据

  • 初始数据收集: 来自The Pile的标记文本
  • 语言生产者: 请参阅The Pile

注释

  • 注释过程: 使用Detoxify对每个句子进行毒性评分
  • 注释者: Detoxify

个人信息和敏感信息

  • 包含内容: 个人可识别信息和毒性文本

使用数据注意事项

社会影响

  • 包含内容: 毒性文本和个人可识别信息
  • 使用建议: 仅供研究使用,不建议部署训练的模型

偏见讨论

  • 包含偏见: 来自The Pile的偏见

其他已知限制

  • 毒性文本检测: 使用不完全准确的自动化方法
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作