codeparrot/codeparrot-train-near-deduplication
收藏Hugging Face2022-06-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/codeparrot/codeparrot-train-near-deduplication
下载链接
链接失效反馈官方服务:
资源简介:
CodeParrot数据集的一个子集,包含从Github收集的Python文件,并进行了近似的去重处理。数据集来源于codeparrot-clean-train,该数据集是从codeparrot-clean中分割出来的。由于精确去重可能会遗漏大量几乎相同的文件,因此使用了MinHash算法和Jaccard阈值(默认值为0.85)来创建重复文件簇,然后根据精确的Jaccard相似性将这些簇减少为唯一的文件。
提供机构:
codeparrot
原始信息汇总
CodeParrot 🦜 Dataset after near deduplication (train)
数据集描述
本数据集包含来自GitHub的Python文件,经过近似去重处理。该数据集是从codeparrot-clean-train分割而来,属于codeparrot-clean的一部分。为避免精确去重可能遗漏大量几乎相同的文件,本数据集采用MinHash算法,并设置Jaccard阈值(默认值为0.85)来创建重复集群。随后,根据精确的Jaccard相似度,从这些集群中提取出唯一的文件。更多详细信息,请参阅此仓库。



