pypi_malregistry|恶意软件分析数据集|PyPI生态系统数据集

github2024-05-21 更新2024-05-31 收录

恶意软件分析

PyPI生态系统

下载链接：

https://github.com/lxyeternal/pypi_malregistry

下载链接

链接失效反馈

资源简介：

该数据集收集了约5,180个恶意PyPI包的5,907个版本的源代码，格式为`包名 -> 版本 -> 源代码压缩文件`。数据集经过人工检查，已移除所有误报。此数据集是ASE 2023论文An Empirical Study of Malicious Code In PyPI Ecosystem的研究成果，并持续更新。

This dataset comprises the source code of approximately 5,907 versions from about 5,180 malicious PyPI packages, structured as `package name -> version -> source code archive`. It has been manually reviewed to eliminate all false positives. This dataset is a result of the research presented in the ASE 2023 paper titled 'An Empirical Study of Malicious Code In PyPI Ecosystem' and is continuously updated.

创建时间：

2023-08-16

原始信息汇总

数据集概述

数据集大小

包含约6,120个版本的源代码，涉及5,374个恶意软件包。

数据集格式

数据集以包名、版本和源代码压缩文件的形式组织。例如：ython-binance -> 0.1 -> ython-binance-0.1.tar.gz。

数据集更新

2024年3月31日：新增431个使用拼写错误攻击方法的恶意软件包。
2024年4月4日：新增45个使用拼写错误攻击方法的恶意软件包。
2024年4月16日：新增56个使用拼写错误攻击方法的恶意软件包。
2024年4月21日：新增34个使用拼写错误攻击方法的恶意软件包。
2024年5月1日：新增1154个使用拼写错误攻击方法的恶意软件包。
2024年5月2日：新增181个恶意软件包。
2024年5月3日：新增35个恶意软件包。
2024年5月7日：新增1017个恶意软件包。
2024年5月8日：新增恶意软件包multiconnections [2.35.4]。
2024年5月14日：新增恶意软件包testpkg3322 [2.35.8, 2.35.9, 2.35.10, 2.35.12, 2.35.14, 2.35.15, 2.35.16, 2.35.18, 2.35.19]。
2024年5月16日：新增恶意软件包vertica_parser [99.9.9] 和 dependency999 [9.9.9]。
2024年5月17日：新增恶意软件包sphinx-rtd-theme-cilium [99.9.9] 和 requests_darwin_lite [2.28.0]。
2024年5月18日：新增恶意软件包user-agents-parser [2.2.2]。
2024年5月20日：新增恶意软件包python-consul2-hh [999.9.9]。
2024年5月21日：新增恶意软件包jupyter_calendar_extension [0.1] 和 blypack [0.1, 0.2, 0.3, 0.4, 0.5]。
2024年5月22日：新增恶意软件包reallydonothing [0.1, 0.2]，ml_linear_regression_lib [1.1.3]，dependency_confusion123456 [9.9.9]，dependency_confusion123 [1.0.4]。
2024年5月24日：新增恶意软件包networkx-match-algr-0.1.1，networkx-match-ssss-0.1.1，reportgenpub-0.2，speech-dtw-0.1.1。
2024年5月26日：新增恶意软件包jupyter_calendar_extension-0.1，calendar_extender-0.1，calendar_extender-0.2，auto_scrubber-0.1。
2024年6月3日：新增恶意软件包pyjous，reqwestss，numberpy，pytoileur，defca。
2024年6月6日：新增恶意软件包xFileSyncerx [0.0.2]。
2024年6月12日：新增恶意软件包pyzelf [2.0.1]。
2024年6月14日：新增恶意软件包pytypier [1.0.2]，pyspliter [1.0.2]，builderknower [0.1.1, 0.1.2, 0.1.3, 0.1.4, 0.1.5, 0.1.6, 0.1.7, 0.1.8, 0.1.9, 0.1.10, 0.1.11, 0.1.12]，thesis-uniud-package [1.0.0]，thesis-package [1.0.0]。
2024年6月17日：检测到超过160个新的恶意软件包。

数据集质量保证

所有收集的恶意软件包均已通过人工检查，确保无误报。

AI搜集汇总

数据集介绍

构建方式

pypi_malregistry数据集的构建基于对PyPI生态系统中恶意软件包的系统性收集与验证。研究团队通过自动化工具识别潜在的恶意包，并进行人工审查以确保准确性。数据集包括约10,823个版本的源代码，涵盖9,503个恶意软件包。每个条目以`包名 -> 版本 -> 源代码压缩文件`的格式存储，确保数据的结构化和可追溯性。此外，数据集定期更新，以纳入新发现的恶意包，特别是通过typo-squatting攻击方法生成的恶意包。

特点

pypi_malregistry数据集的主要特点在于其全面性和实时更新。数据集不仅涵盖了大量的恶意软件包，还通过人工验证确保了数据的准确性，排除了所有误报。此外，数据集的结构化存储格式使得研究人员可以方便地访问和分析特定版本的恶意代码。定期更新机制确保了数据集的时效性，使其成为研究PyPI生态系统中恶意软件动态的宝贵资源。

使用方法

pypi_malregistry数据集适用于多种研究目的，包括但不限于恶意软件分析、安全策略评估和自动化检测工具的开发。研究人员可以通过访问GitHub仓库下载数据集，并根据提供的格式提取特定版本的恶意代码进行深入分析。数据集的结构化设计使得数据处理和分析变得高效，支持大规模数据挖掘和机器学习模型的训练。此外，数据集的更新日志提供了详细的版本信息，便于跟踪恶意软件的演变过程。

背景与挑战

背景概述

pypi_malregistry数据集由ASE 2023会议论文《An Empirical Study of Malicious Code In PyPI Ecosystem》的研究人员创建，主要研究人员包括Guo, Wenbo、Xu, Zhengzi、Liu, Chengwei、Huang, Cheng、Fang, Yong和Liu, Yang。该数据集包含了约10,823个恶意Python包的源代码版本，共计9,503个恶意包。其核心研究问题在于深入分析和识别PyPI生态系统中的恶意代码，旨在提高对开源软件供应链安全的认识和防护能力。该数据集的创建对软件安全领域具有重要影响，为研究人员提供了宝贵的资源，以开发和测试新的恶意代码检测和防御技术。

当前挑战

pypi_malregistry数据集面临的挑战主要包括两个方面。首先，恶意代码的多样性和复杂性使得准确识别和分类这些代码变得极为困难。其次，数据集的构建过程中，研究人员需要手动检查并移除所有误报的恶意包，这一过程耗时且容易出错。此外，随着时间的推移，新的恶意包不断涌现，数据集需要定期更新以保持其时效性和实用性。这些挑战要求研究人员不断改进检测算法和更新数据集，以应对日益复杂的恶意代码威胁。

常用场景

经典使用场景

pypi_malregistry数据集的经典使用场景主要集中在恶意软件分析和网络安全研究领域。研究者可以通过分析这些恶意包的源代码，识别出常见的攻击模式和恶意行为，从而开发出更有效的防御机制。此外，该数据集还可用于训练机器学习模型，以自动检测和分类恶意软件，提升系统的安全性能。

解决学术问题

pypi_malregistry数据集解决了在Python包管理生态系统中识别和防范恶意软件的学术研究问题。通过提供大量恶意包的源代码，研究者可以深入分析恶意软件的传播机制、隐藏技术和攻击策略，从而推动网络安全领域的理论和实践发展。该数据集的发布为学术界提供了一个宝贵的资源，有助于提升对恶意软件行为的理解和防范能力。

衍生相关工作

pypi_malregistry数据集的发布催生了一系列相关的经典工作，包括恶意软件行为分析、自动化检测工具的开发以及网络安全教育资源的创建。例如，基于该数据集的研究论文《An Empirical Study of Malicious Code In PyPI Ecosystem》详细探讨了恶意代码在Python包管理生态系统中的分布和影响，为后续研究提供了重要的理论基础。此外，该数据集还激发了多个开源项目的诞生，推动了网络安全技术的进步。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

TCIA

TCIA（The Cancer Imaging Archive）是一个公开的癌症影像数据集，包含多种癌症类型的医学影像数据，如CT、MRI、PET等。这些数据通常与临床和病理信息相结合，用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

Club Football Match Data (2000 - 2025)

该数据集提供了一个简单的入口，用于分析全球27个国家和42个联赛的足球比赛数据，包括英超、德甲和西甲等顶级联赛。数据涵盖了从2000/01赛季到2024/25赛季的最新比赛结果。数据集还包括Elo评分，每月的1号和15号对欧洲约500支最佳球队进行快照。

github 收录

stochastic/random_streetview_images_pano_v0.0.2

随机街景图像数据集是从randomstreetview.com抓取的带有标签的全景图像。每张图像显示一个可以通过Google Street View访问的位置，这些图像被大致组合以提供单个位置的约360度视角。该数据集的设计目的是仅基于其视觉内容对图像进行地理定位。数据集包含约10,000张图像，涵盖了55个国家的约175张照片，主要集中在欧洲和亚洲。

hugging_face 收录