five

codeparrot/codeparrot-valid-near-deduplication

收藏
Hugging Face2022-06-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/codeparrot/codeparrot-valid-near-deduplication
下载链接
链接失效反馈
官方服务:
资源简介:
CodeParrot数据集包含来自GitHub的Python文件,并进行了近似的去重处理。去重过程使用了MinHash算法和Jaccard阈值(默认0.85)来创建重复文件簇,然后根据精确的Jaccard相似度将这些簇减少为唯一文件。
提供机构:
codeparrot
原始信息汇总

CodeParrot 🦜 Dataset after near deduplication (validation)

数据集描述

本数据集包含来自Github的Python文件,经过近似去重处理。该数据集是从codeparrot-clean中分割出的codeparrot-clean-train。为避免精确去重可能遗漏大量近似相同的文件,采用了MinHash算法结合Jaccard阈值(默认值为0.85)来创建重复文件簇。随后,根据精确的Jaccard相似度,从这些簇中筛选出唯一文件。更多详情,请参考此仓库

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作