tomekkorbak/pile-toxicity-balanced3
收藏Hugging Face2022-05-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tomekkorbak/pile-toxicity-balanced3
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过使用Perspective API对来自the Pile的文档进行毒性评分构建的。生成过程包括对the Pile的一部分文档进行评分,选取最毒性的100k文档和随机采样的100k文档,然后进行洗牌并按9:1的比例划分为训练集和测试集。基本统计信息包括文档级和令牌级的平均得分。
提供机构:
tomekkorbak
原始信息汇总
数据集构建过程
该数据集是通过使用the Pile中的文档,并使用Perspective API进行毒性评分构建的。具体步骤如下:
- 从the Pile中选取220万份文档,使用Perspective API进行毒性评分(评分时间为2022年5月18日至20日),得到数据集
tomekkorbak/pile-chunk-toxicity-scored-3。 - 从
pile-chunk-toxicity-scored-3中选取前10万份最毒的文档。 - 从
pile-chunk-toxicity-scored-3中随机选取10万份文档。 - 对数据集进行洗牌,并进行9:1的训练-测试分割。
基本统计信息
数据集中有毒和随机两部分的平均文档级别评分分别为0.34和0.05。整个数据集的平均词级别评分为0.2025,平均文档级别评分为0.1983。



