kejian/pile-severetoxic-balanced2
收藏Hugging Face2022-05-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kejian/pile-severetoxic-balanced2
下载链接
链接失效反馈官方服务:
资源简介:
本数据集由两部分组成:一半是从Pile chunk-0中筛选出的100k最毒文档,另一半是从Pile chunk-3随机抽取的100k文档。这些文档根据Perspective API的SEVERE-TOXICITY评分进行筛选,并通过洗牌后进行了9:1的训练-测试分割。数据集的平均毒性评分为0.308,加权平均毒性评分为0.337,毒性评分与文档长度之间的相关性为0.099。
提供机构:
kejian
原始信息汇总
数据集概述
数据集名称
[kejian/pile-severetoxic-balanced2]
数据集构建过程
- 来源: 数据集由Pile数据集中的文档构成,使用Perspective API的SEVERE-TOXICITY评分进行筛选。
- 组成:
- 前半部分: 来自kejian/pile-severetoxic-chunk-0,包含Pile chunk-0中最毒的100,000个文档。
- 后半部分: 来自kejian/pile-severetoxic-random100k,包含从Pile chunk-3随机抽取的100,000个文档。
- 处理: 数据集经过洗牌处理,并进行了9:1的训练集与测试集分割。
基本统计信息
- 平均分:
- 最毒部分: 平均分为0.555。
- 随机部分: 平均分为0.061。
- 整体: 平均分为0.308,中位数为0.385。
- 加权平均分: 加权平均分为0.337(权重基于文档长度)。
- 相关性: 评分与文档长度的相关性为0.099。



