five

tomekkorbak/pile-toxicity-balanced3

收藏
Hugging Face2022-05-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tomekkorbak/pile-toxicity-balanced3
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过使用Perspective API对来自the Pile的文档进行毒性评分构建的。生成过程包括对the Pile的一部分文档进行评分,选取最毒性的100k文档和随机采样的100k文档,然后进行洗牌并按9:1的比例划分为训练集和测试集。基本统计信息包括文档级和令牌级的平均得分。
提供机构:
tomekkorbak
原始信息汇总

数据集构建过程

该数据集是通过使用the Pile中的文档,并使用Perspective API进行毒性评分构建的。具体步骤如下:

  1. 从the Pile中选取220万份文档,使用Perspective API进行毒性评分(评分时间为2022年5月18日至20日),得到数据集tomekkorbak/pile-chunk-toxicity-scored-3
  2. pile-chunk-toxicity-scored-3中选取前10万份最毒的文档。
  3. pile-chunk-toxicity-scored-3中随机选取10万份文档。
  4. 对数据集进行洗牌,并进行9:1的训练-测试分割。

基本统计信息

数据集中有毒和随机两部分的平均文档级别评分分别为0.34和0.05。整个数据集的平均词级别评分为0.2025,平均文档级别评分为0.1983。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作