loubnabnl/data-filtering-statistics
收藏Hugging Face2022-12-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/loubnabnl/data-filtering-statistics
下载链接
链接失效反馈官方服务:
资源简介:
该数据集在去重和行过滤的基础上,进一步进行了评论过滤(至少1%的行应为注释/文档字符串)和星标过滤(至少5颗星)。表格展示了Python、Java和Javascript三种语言在过滤前后的数据量变化,包括过滤前的数据量、星标过滤后的数据量、评论比例过滤后的数据量、进一步去重后的数据量以及分词器生成的数据量。
提供机构:
loubnabnl
原始信息汇总
数据集概述
数据集过滤条件
- 评论过滤:至少1%的行数应为评论或文档字符串。
- 星级过滤:至少5星。
数据集统计信息
| 语言 | 过滤前大小 | 星级过滤后大小 | 评论比例过滤后大小 | 进一步去重后大小 | 分词器生育率 |
|---|---|---|---|---|---|
| Python | 75.61 GB | 26.56 GB | 65.64 GB | 61.97 GB | 72.52 GB |
| Java | 110 GB | 35.83 GB | 92.7 GB | 88.42 GB | 105.47 GB |
| Javascript | 82.7 GB | 20.76 GB | 57.5 GB | 65.09 GB | 76.37 GB |



