pypi_malregistry|恶意软件分析数据集|PyPI生态系统数据集
收藏数据集概述
数据集大小
包含约6,120个版本的源代码,涉及5,374个恶意软件包。
数据集格式
数据集以包名、版本和源代码压缩文件的形式组织。例如:ython-binance -> 0.1 -> ython-binance-0.1.tar.gz
。
数据集更新
- 2024年3月31日:新增431个使用拼写错误攻击方法的恶意软件包。
- 2024年4月4日:新增45个使用拼写错误攻击方法的恶意软件包。
- 2024年4月16日:新增56个使用拼写错误攻击方法的恶意软件包。
- 2024年4月21日:新增34个使用拼写错误攻击方法的恶意软件包。
- 2024年5月1日:新增1154个使用拼写错误攻击方法的恶意软件包。
- 2024年5月2日:新增181个恶意软件包。
- 2024年5月3日:新增35个恶意软件包。
- 2024年5月7日:新增1017个恶意软件包。
- 2024年5月8日:新增恶意软件包multiconnections [2.35.4]。
- 2024年5月14日:新增恶意软件包testpkg3322 [2.35.8, 2.35.9, 2.35.10, 2.35.12, 2.35.14, 2.35.15, 2.35.16, 2.35.18, 2.35.19]。
- 2024年5月16日:新增恶意软件包vertica_parser [99.9.9] 和 dependency999 [9.9.9]。
- 2024年5月17日:新增恶意软件包sphinx-rtd-theme-cilium [99.9.9] 和 requests_darwin_lite [2.28.0]。
- 2024年5月18日:新增恶意软件包user-agents-parser [2.2.2]。
- 2024年5月20日:新增恶意软件包python-consul2-hh [999.9.9]。
- 2024年5月21日:新增恶意软件包jupyter_calendar_extension [0.1] 和 blypack [0.1, 0.2, 0.3, 0.4, 0.5]。
- 2024年5月22日:新增恶意软件包reallydonothing [0.1, 0.2],ml_linear_regression_lib [1.1.3],dependency_confusion123456 [9.9.9],dependency_confusion123 [1.0.4]。
- 2024年5月24日:新增恶意软件包networkx-match-algr-0.1.1,networkx-match-ssss-0.1.1,reportgenpub-0.2,speech-dtw-0.1.1。
- 2024年5月26日:新增恶意软件包jupyter_calendar_extension-0.1,calendar_extender-0.1,calendar_extender-0.2,auto_scrubber-0.1。
- 2024年6月3日:新增恶意软件包pyjous,reqwestss,numberpy,pytoileur,defca。
- 2024年6月6日:新增恶意软件包xFileSyncerx [0.0.2]。
- 2024年6月12日:新增恶意软件包pyzelf [2.0.1]。
- 2024年6月14日:新增恶意软件包pytypier [1.0.2],pyspliter [1.0.2],builderknower [0.1.1, 0.1.2, 0.1.3, 0.1.4, 0.1.5, 0.1.6, 0.1.7, 0.1.8, 0.1.9, 0.1.10, 0.1.11, 0.1.12],thesis-uniud-package [1.0.0],thesis-package [1.0.0]。
- 2024年6月17日:检测到超过160个新的恶意软件包。
数据集质量保证
所有收集的恶意软件包均已通过人工检查,确保无误报。

Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
Club Football Match Data (2000 - 2025)
该数据集提供了一个简单的入口,用于分析全球27个国家和42个联赛的足球比赛数据,包括英超、德甲和西甲等顶级联赛。数据涵盖了从2000/01赛季到2024/25赛季的最新比赛结果。数据集还包括Elo评分,每月的1号和15号对欧洲约500支最佳球队进行快照。
github 收录
stochastic/random_streetview_images_pano_v0.0.2
随机街景图像数据集是从randomstreetview.com抓取的带有标签的全景图像。每张图像显示一个可以通过Google Street View访问的位置,这些图像被大致组合以提供单个位置的约360度视角。该数据集的设计目的是仅基于其视觉内容对图像进行地理定位。数据集包含约10,000张图像,涵盖了55个国家的约175张照片,主要集中在欧洲和亚洲。
hugging_face 收录