codeparrot/codeparrot-valid-more-filtering
收藏Hugging Face2022-06-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/codeparrot/codeparrot-valid-more-filtering
下载链接
链接失效反馈官方服务:
资源简介:
CodeParrot数据集是一个来自GitHub的Python文件数据集,是[codeparrot-clean-valid](https://huggingface.co/datasets/codeparrot/codeparrot-clean-valid)数据集的进一步过滤版本。过滤的目的是去除配置文件、测试文件以及不太可能帮助模型学习代码的异常文件。过滤条件包括检测文件前五行是否包含“test file”或“configuration file”等关键词、文件中是否高频出现“test”或“config”关键词、文件中是否缺少`def`、`for`、`while`和`class`等关键词、文件中赋值操作符`=`的使用次数是否少于5次,以及文件字符数与分词后token数的比例是否小于1.5。
提供机构:
codeparrot
原始信息汇总
CodeParrot 🦜 Dataset Cleaned and filtered (validation)
数据集描述
本数据集是从Github收集的Python文件,是对codeparrot-clean-valid验证集的进一步过滤版本。过滤的目标是识别配置文件和测试文件,以及不太可能帮助模型学习代码的异常文件。过滤规则包括:
- 在前5行中提及“测试文件”或“配置文件”或类似内容的文件,过滤概率为0.7。
- 高频率出现关键词“test”或“config”的文件,过滤概率为0.7。
- 未提及关键词
def,for,while和class的文件,过滤概率为0.7。 - 使用赋值运算符=少于5次的文件。
- 字符数与token化后token数之比小于1.5的文件。



