codeparrot/github-code-clean
收藏Hugging Face2022-07-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/codeparrot/github-code-clean
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
---
This is a cleaner version of [Github-code dataset](https://huggingface.co/datasets/codeparrot/github-code), we add the following filters:
* Average line length < 100
* Alpha numeric characters fraction > 0.25
* Remove auto-generated files (keyword search)
3.39M files are removed making up 2.94% of the dataset.
提供机构:
codeparrot
原始信息汇总
数据集概述
数据集版本
本数据集是Github-code数据集的清洁版本。
数据过滤条件
- 平均行长度小于100个字符。
- 字母数字字符的比例大于0.25。
- 移除自动生成的文件(通过关键词搜索)。
数据集大小变化
- 移除了3.39M个文件,占原数据集的2.94%。
许可证
- Apache-2.0



