five

tomekkorbak/pile-toxicity-balanced

收藏
Hugging Face2022-04-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tomekkorbak/pile-toxicity-balanced
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过使用Perspective API对来自the Pile的文档进行毒性评分构建的。构建过程包括:对the Pile的3%(700万文档)进行评分,选取评分最高的10万文档和评分最低的10万文档,然后进行9:1的训练-测试分割。数据集的基本统计信息包括平均评分、中位数评分、加权平均评分以及评分与文档长度的相关性。此外,还提供了每个Pile子集的平均评分和文档长度。
提供机构:
tomekkorbak
原始信息汇总

数据集概述

数据集构建过程

基本统计数据

  • 高毒性子集的平均分为0.67,低毒性子集的平均分为0.0014。
  • 整个数据集的平均分为0.33,中位数为0.51。
  • 加权平均分(按文档长度加权)为0.45,毒性评分与文档长度的相关系数为0.2。

各子集的平均分

pile_set_name score length
ArXiv 0.141808 9963.82
Books3 0.405541 8911.67
DM Mathematics 0.535474 8194
Enron Emails 0.541136 1406.76
EuroParl 0.373395 4984.36
FreeLaw 0.279582 8986.73
Github 0.495742 2184.86
Gutenberg (PG-19) 0.583263 4034
HackerNews 0.617917 3714.83
NIH ExPorter 0.0376628 1278.83
OpenSubtitles 0.674261 14881.1
OpenWebText2 0.613273 2634.41
PhilPapers 0.549582 9693
Pile-CC 0.525136 2925.7
PubMed Abstracts 0.0388705 1282.29
PubMed Central 0.235012 7418.34
StackExchange 0.590904 2210.16
USPTO Backgrounds 0.0100077 2086.39
Ubuntu IRC 0.598423 4396.67
Wikipedia (en) 0.0136901 1515.89
YoutubeSubtitles 0.65201 4729.52
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作