five

kejian/pile-severetoxic-balanced2

收藏
Hugging Face2022-05-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kejian/pile-severetoxic-balanced2
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集由两部分组成:一半是从Pile chunk-0中筛选出的100k最毒文档,另一半是从Pile chunk-3随机抽取的100k文档。这些文档根据Perspective API的SEVERE-TOXICITY评分进行筛选,并通过洗牌后进行了9:1的训练-测试分割。数据集的平均毒性评分为0.308,加权平均毒性评分为0.337,毒性评分与文档长度之间的相关性为0.099。
提供机构:
kejian
原始信息汇总

数据集概述

数据集名称

[kejian/pile-severetoxic-balanced2]

数据集构建过程

  • 来源: 数据集由Pile数据集中的文档构成,使用Perspective API的SEVERE-TOXICITY评分进行筛选。
  • 组成:
    • 前半部分: 来自kejian/pile-severetoxic-chunk-0,包含Pile chunk-0中最毒的100,000个文档。
    • 后半部分: 来自kejian/pile-severetoxic-random100k,包含从Pile chunk-3随机抽取的100,000个文档。
  • 处理: 数据集经过洗牌处理,并进行了9:1的训练集与测试集分割。

基本统计信息

  • 平均分:
    • 最毒部分: 平均分为0.555。
    • 随机部分: 平均分为0.061。
    • 整体: 平均分为0.308,中位数为0.385。
  • 加权平均分: 加权平均分为0.337(权重基于文档长度)。
  • 相关性: 评分与文档长度的相关性为0.099。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作