tomekkorbak/pile-toxicity-balanced
收藏Hugging Face2022-04-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tomekkorbak/pile-toxicity-balanced
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过使用Perspective API对来自the Pile的文档进行毒性评分构建的。构建过程包括:对the Pile的3%(700万文档)进行评分,选取评分最高的10万文档和评分最低的10万文档,然后进行9:1的训练-测试分割。数据集的基本统计信息包括平均评分、中位数评分、加权平均评分以及评分与文档长度的相关性。此外,还提供了每个Pile子集的平均评分和文档长度。
提供机构:
tomekkorbak
原始信息汇总
数据集概述
数据集构建过程
- 数据集由the Pile中的文档构建,使用Perspective API进行毒性评分。
- 选取了the Pile的3%(约700万文档)进行评分。
- 分为两个子集:
- tomekkorbak/pile-toxic-chunk-0:包含10万份最高毒性文档。
- tomekkorbak/pile-nontoxic-chunk-0:包含10万份最低毒性文档。
- 数据集经过洗牌后,进行了9:1的训练-测试分割。
基本统计数据
- 高毒性子集的平均分为0.67,低毒性子集的平均分为0.0014。
- 整个数据集的平均分为0.33,中位数为0.51。
- 加权平均分(按文档长度加权)为0.45,毒性评分与文档长度的相关系数为0.2。
各子集的平均分
| pile_set_name | score | length |
|---|---|---|
| ArXiv | 0.141808 | 9963.82 |
| Books3 | 0.405541 | 8911.67 |
| DM Mathematics | 0.535474 | 8194 |
| Enron Emails | 0.541136 | 1406.76 |
| EuroParl | 0.373395 | 4984.36 |
| FreeLaw | 0.279582 | 8986.73 |
| Github | 0.495742 | 2184.86 |
| Gutenberg (PG-19) | 0.583263 | 4034 |
| HackerNews | 0.617917 | 3714.83 |
| NIH ExPorter | 0.0376628 | 1278.83 |
| OpenSubtitles | 0.674261 | 14881.1 |
| OpenWebText2 | 0.613273 | 2634.41 |
| PhilPapers | 0.549582 | 9693 |
| Pile-CC | 0.525136 | 2925.7 |
| PubMed Abstracts | 0.0388705 | 1282.29 |
| PubMed Central | 0.235012 | 7418.34 |
| StackExchange | 0.590904 | 2210.16 |
| USPTO Backgrounds | 0.0100077 | 2086.39 |
| Ubuntu IRC | 0.598423 | 4396.67 |
| Wikipedia (en) | 0.0136901 | 1515.89 |
| YoutubeSubtitles | 0.65201 | 4729.52 |



