five

pypi_malregistry

收藏
github2024-05-21 更新2024-05-31 收录
下载链接:
https://github.com/lxyeternal/pypi_malregistry
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集收集了约5,180个恶意PyPI包的5,907个版本的源代码,格式为`包名 -> 版本 -> 源代码压缩文件`。数据集经过人工检查,已移除所有误报。此数据集是ASE 2023论文An Empirical Study of Malicious Code In PyPI Ecosystem的研究成果,并持续更新。

This dataset comprises the source code of approximately 5,907 versions from about 5,180 malicious PyPI packages, structured as `package name -> version -> source code archive`. It has been manually reviewed to eliminate all false positives. This dataset is a result of the research presented in the ASE 2023 paper titled 'An Empirical Study of Malicious Code In PyPI Ecosystem' and is continuously updated.
创建时间:
2023-08-16
原始信息汇总

数据集概述

数据集大小

包含约6,120个版本的源代码,涉及5,374个恶意软件包。

数据集格式

数据集以包名、版本和源代码压缩文件的形式组织。例如:ython-binance -> 0.1 -> ython-binance-0.1.tar.gz

数据集更新

  • 2024年3月31日:新增431个使用拼写错误攻击方法的恶意软件包。
  • 2024年4月4日:新增45个使用拼写错误攻击方法的恶意软件包。
  • 2024年4月16日:新增56个使用拼写错误攻击方法的恶意软件包。
  • 2024年4月21日:新增34个使用拼写错误攻击方法的恶意软件包。
  • 2024年5月1日:新增1154个使用拼写错误攻击方法的恶意软件包。
  • 2024年5月2日:新增181个恶意软件包。
  • 2024年5月3日:新增35个恶意软件包。
  • 2024年5月7日:新增1017个恶意软件包。
  • 2024年5月8日:新增恶意软件包multiconnections [2.35.4]。
  • 2024年5月14日:新增恶意软件包testpkg3322 [2.35.8, 2.35.9, 2.35.10, 2.35.12, 2.35.14, 2.35.15, 2.35.16, 2.35.18, 2.35.19]。
  • 2024年5月16日:新增恶意软件包vertica_parser [99.9.9] 和 dependency999 [9.9.9]。
  • 2024年5月17日:新增恶意软件包sphinx-rtd-theme-cilium [99.9.9] 和 requests_darwin_lite [2.28.0]。
  • 2024年5月18日:新增恶意软件包user-agents-parser [2.2.2]。
  • 2024年5月20日:新增恶意软件包python-consul2-hh [999.9.9]。
  • 2024年5月21日:新增恶意软件包jupyter_calendar_extension [0.1] 和 blypack [0.1, 0.2, 0.3, 0.4, 0.5]。
  • 2024年5月22日:新增恶意软件包reallydonothing [0.1, 0.2],ml_linear_regression_lib [1.1.3],dependency_confusion123456 [9.9.9],dependency_confusion123 [1.0.4]。
  • 2024年5月24日:新增恶意软件包networkx-match-algr-0.1.1,networkx-match-ssss-0.1.1,reportgenpub-0.2,speech-dtw-0.1.1。
  • 2024年5月26日:新增恶意软件包jupyter_calendar_extension-0.1,calendar_extender-0.1,calendar_extender-0.2,auto_scrubber-0.1。
  • 2024年6月3日:新增恶意软件包pyjous,reqwestss,numberpy,pytoileur,defca。
  • 2024年6月6日:新增恶意软件包xFileSyncerx [0.0.2]。
  • 2024年6月12日:新增恶意软件包pyzelf [2.0.1]。
  • 2024年6月14日:新增恶意软件包pytypier [1.0.2],pyspliter [1.0.2],builderknower [0.1.1, 0.1.2, 0.1.3, 0.1.4, 0.1.5, 0.1.6, 0.1.7, 0.1.8, 0.1.9, 0.1.10, 0.1.11, 0.1.12],thesis-uniud-package [1.0.0],thesis-package [1.0.0]。
  • 2024年6月17日:检测到超过160个新的恶意软件包。

数据集质量保证

所有收集的恶意软件包均已通过人工检查,确保无误报。

搜集汇总
数据集介绍
main_image_url
构建方式
pypi_malregistry数据集的构建基于对PyPI生态系统中恶意软件包的系统性收集与验证。研究团队通过自动化工具识别潜在的恶意包,并进行人工审查以确保准确性。数据集包括约10,823个版本的源代码,涵盖9,503个恶意软件包。每个条目以`包名 -> 版本 -> 源代码压缩文件`的格式存储,确保数据的结构化和可追溯性。此外,数据集定期更新,以纳入新发现的恶意包,特别是通过typo-squatting攻击方法生成的恶意包。
特点
pypi_malregistry数据集的主要特点在于其全面性和实时更新。数据集不仅涵盖了大量的恶意软件包,还通过人工验证确保了数据的准确性,排除了所有误报。此外,数据集的结构化存储格式使得研究人员可以方便地访问和分析特定版本的恶意代码。定期更新机制确保了数据集的时效性,使其成为研究PyPI生态系统中恶意软件动态的宝贵资源。
使用方法
pypi_malregistry数据集适用于多种研究目的,包括但不限于恶意软件分析、安全策略评估和自动化检测工具的开发。研究人员可以通过访问GitHub仓库下载数据集,并根据提供的格式提取特定版本的恶意代码进行深入分析。数据集的结构化设计使得数据处理和分析变得高效,支持大规模数据挖掘和机器学习模型的训练。此外,数据集的更新日志提供了详细的版本信息,便于跟踪恶意软件的演变过程。
背景与挑战
背景概述
pypi_malregistry数据集由ASE 2023会议论文《An Empirical Study of Malicious Code In PyPI Ecosystem》的研究人员创建,主要研究人员包括Guo, Wenbo、Xu, Zhengzi、Liu, Chengwei、Huang, Cheng、Fang, Yong和Liu, Yang。该数据集包含了约10,823个恶意Python包的源代码版本,共计9,503个恶意包。其核心研究问题在于深入分析和识别PyPI生态系统中的恶意代码,旨在提高对开源软件供应链安全的认识和防护能力。该数据集的创建对软件安全领域具有重要影响,为研究人员提供了宝贵的资源,以开发和测试新的恶意代码检测和防御技术。
当前挑战
pypi_malregistry数据集面临的挑战主要包括两个方面。首先,恶意代码的多样性和复杂性使得准确识别和分类这些代码变得极为困难。其次,数据集的构建过程中,研究人员需要手动检查并移除所有误报的恶意包,这一过程耗时且容易出错。此外,随着时间的推移,新的恶意包不断涌现,数据集需要定期更新以保持其时效性和实用性。这些挑战要求研究人员不断改进检测算法和更新数据集,以应对日益复杂的恶意代码威胁。
常用场景
经典使用场景
pypi_malregistry数据集的经典使用场景主要集中在恶意软件分析和网络安全研究领域。研究者可以通过分析这些恶意包的源代码,识别出常见的攻击模式和恶意行为,从而开发出更有效的防御机制。此外,该数据集还可用于训练机器学习模型,以自动检测和分类恶意软件,提升系统的安全性能。
解决学术问题
pypi_malregistry数据集解决了在Python包管理生态系统中识别和防范恶意软件的学术研究问题。通过提供大量恶意包的源代码,研究者可以深入分析恶意软件的传播机制、隐藏技术和攻击策略,从而推动网络安全领域的理论和实践发展。该数据集的发布为学术界提供了一个宝贵的资源,有助于提升对恶意软件行为的理解和防范能力。
衍生相关工作
pypi_malregistry数据集的发布催生了一系列相关的经典工作,包括恶意软件行为分析、自动化检测工具的开发以及网络安全教育资源的创建。例如,基于该数据集的研究论文《An Empirical Study of Malicious Code In PyPI Ecosystem》详细探讨了恶意代码在Python包管理生态系统中的分布和影响,为后续研究提供了重要的理论基础。此外,该数据集还激发了多个开源项目的诞生,推动了网络安全技术的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作