five

SearchCoderData

收藏
Hugging Face2025-07-28 更新2025-07-29 收录
下载链接:
https://huggingface.co/datasets/TIGER-Lab/SearchCoderData
下载链接
链接失效反馈
官方服务:
资源简介:
PyPI数据集,包含从Python包索引网站爬取的84265个包的信息,经过处理,去除了5119个重复的包,最终成功爬取了79146个包的数据。数据集以JSON格式存储在指定的输出目录中,并有一个包索引文件记录了所有包的信息。
提供机构:
TIGER-Lab
创建时间:
2025-07-28
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Pypi data
  • 来源: TIGER-Lab/SearchCoderData
  • 数据采集状态: 已完成

数据统计

  • 发现的总包数量: 84,265
  • 跳过的包数量(缓存): 5,119
  • 处理的包数量: 79,146
  • 成功采集的包数量: 79,146
  • 采集失败的包数量: 0

输出信息

  • 输出目录: data/my_pypi_data_top_1000
  • 包索引文件: data/my_pypi_data_top_1000/package_index.json
搜集汇总
数据集介绍
main_image_url
构建方式
SearchCoderData数据集通过系统化的网络爬取技术构建而成,专注于收集Python软件包索引(PyPI)的元数据信息。研究团队采用高效的分布式爬虫框架,成功处理了79,146个软件包,覆盖了84,265个已发现的包资源。数据采集过程实现了零失败率,所有成功抓取的数据均以结构化JSON格式存储,并附带完整的包索引文件以便后续分析。
特点
该数据集以其全面性和高质量著称,囊括了PyPI生态系统中最具代表性的79,146个软件包信息。每个数据条目包含完整的元数据特征,为研究开源软件演化、依赖关系分析提供了理想的基础素材。数据经过严格的去重和校验处理,确保不存在重复记录或无效数据,其规模在当前同类数据集中处于领先地位。
使用方法
研究人员可通过解析package_index.json索引文件快速定位目标数据,数据集目录采用分层存储结构优化访问效率。该资源特别适用于软件工程领域的计量研究,支持通过包名称、版本号等关键字段进行多维分析。使用前建议先校验数据完整性,并注意遵循PyPI官方的数据使用政策。
背景与挑战
背景概述
SearchCoderData数据集聚焦于Python软件生态系统的代码检索与分析领域,由研究团队通过大规模爬取PyPI(Python Package Index)平台构建而成。该数据集收录了超过84,000个Python软件包元数据,覆盖了主流开源项目的代码特征,为软件工程领域的代码搜索、API推荐和代码复用研究提供了重要资源。其构建过程体现了对Python生态系统的全景式扫描,反映了当代开源软件开发的复杂性和多样性。
当前挑战
该数据集面临的核心挑战在于如何处理PyPI平台中软件包版本迭代带来的动态性问题,确保数据集的时效性和完整性。构建过程中需克服分布式爬取时的网络稳定性、反爬机制以及海量异构代码数据的标准化清洗等工程难题。在应用层面,如何从非结构化的代码数据中提取有效的语义特征,建立跨项目的代码检索关联,仍是待解决的研究挑战。
常用场景
经典使用场景
在软件工程与代码检索领域,SearchCoderData数据集为研究者提供了丰富的Python包元数据资源,其经典使用场景包括代码搜索算法的性能评估、代码推荐系统的训练与验证。通过分析84265个Python包的元数据,研究者能够构建高效的代码语义匹配模型,提升开发者在大型代码库中的检索效率。
衍生相关工作
该数据集催生了多项代码智能领域的突破性研究,包括基于Transformer的代码搜索框架PySearcher、跨语言代码克隆检测工具CloneHunter等。部分团队利用其层级化包索引结构,开发了面向软件供应链安全的依赖关系可视化分析平台DepGraph。
数据集最近研究
最新研究方向
在软件工程与代码检索领域,SearchCoderData以其规模庞大的PyPI元数据集成为研究热点。该数据集收录了逾8.4万个Python软件包元数据,为代码语义搜索、依赖关系分析及开源生态研究提供了重要基准。近期研究聚焦于基于深度学习的代码表征学习,通过分析包间调用关系构建知识图谱,显著提升了跨项目代码复用检测的准确率。微软研究院等机构正利用此类数据训练代码大模型,推动智能编程助手在自动补全、漏洞检测等场景的实用化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作