five

tomekkorbak/pile-curse-full

收藏
Hugging Face2022-03-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tomekkorbak/pile-curse-full
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过从The Pile文档中使用LDNOOBW词表进行评分构建的,评分标准是每个字符的诅咒词数量。生成过程包括两个步骤:首先从The Pile中随机抽取100k个文档并评分,然后从整个The Pile中选出评分最高的100k个文档。最后,数据集被随机打乱并按9:1的比例划分为训练集和测试集。基本统计信息显示,平均评分为0.013,中位数为0.019。
提供机构:
tomekkorbak
原始信息汇总

数据集构建过程

  1. 数据来源:数据集基于the Pile的文档构建。
  2. 评分方法:使用LDNOOBW词表对文档进行评分,评分标准为每字符的诅咒词数量。
  3. 数据划分
    • 前半部分:随机从the Pile中抽取100,000份文档并赋予评分。
    • 后半部分:从the Pile中选取评分最高的100,000份文档。
  4. 数据处理:数据集经过洗牌处理,并进行了9:1的训练集与测试集分割。

基本统计数据

  • 平均评分:0.013
  • 中位数评分:0.019
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作