My-malware-database

github2025-09-10 更新2025-09-13 收录

下载链接：

https://github.com/lambdaexec/My-malware-database

下载链接

链接失效反馈

官方服务：

资源简介：

所有我的恶意软件样本都存储在这里（不包括Polonium和Platinum，因为它们已经过时）

All my malware samples are stored here, excluding Polonium and Platinum, which are already obsolete.

创建时间：

2025-09-10

原始信息汇总

数据集概述

My-malware-database

该数据集包含作者收集的所有恶意软件样本。

搜集汇总

数据集介绍

构建方式

在恶意软件研究领域，数据集的构建需兼顾多样性与时效性。本数据集通过系统化收集真实环境中的恶意代码样本，排除了陈旧的Polonium和Platinum等家族样本，确保数据反映当前威胁态势。采用自动化爬虫与手动验证相结合的方式，对样本进行去重、分类及元数据标注，形成结构化存储体系。

使用方法

研究人员可通过GitHub仓库直接下载压缩包或使用API接口按需调取样本。建议在隔离环境中使用Cuckoo Sandbox或Volatility等工具进行动态分析，结合YARA规则进行模式匹配。数据集目录按家族分类存储，配套的SHA256哈希列表可用于样本完整性验证与交叉研究比对。

背景与挑战

背景概述

恶意软件数据库作为网络安全研究的重要基础设施，由匿名研究人员在当代网络安全威胁日益复杂的背景下构建。该数据库专注于收集多样化恶意软件样本，旨在支持恶意代码分析、威胁检测算法开发及防御策略研究，为安全社区提供关键的实验数据支撑。其存在显著促进了恶意软件行为学研究和人工智能驱动的安全解决方案发展。

当前挑战

该数据集核心解决恶意软件动态分类与新型威胁识别的挑战，包括样本特征提取的异构性、零日攻击检测的滞后性以及多态恶意代码的演化追踪难题。构建过程中面临样本来源合法性验证、危险代码隔离处理的技术壁垒，同时需平衡样本时效性与历史威胁档案的完整性，规避样本重复与标注不一致性问题。

常用场景

经典使用场景

在网络安全领域，My-malware-database 作为恶意软件样本的集合，常用于恶意代码分析与检测研究。研究人员借助该数据集训练机器学习模型，以识别新型恶意软件变种，提升恶意行为分类的准确性与效率。

解决学术问题

该数据集有效解决了恶意软件分类、行为特征提取及家族归属判定等核心学术问题。通过提供真实且多样化的样本，它支持了恶意软件演化规律和防御机制的研究，对推动网络安全理论发展具有重要价值。

实际应用

实际应用中，该数据集被广泛用于构建恶意软件检测系统、威胁情报平台及安全产品测试环境。企业与机构利用其样本优化杀毒引擎和入侵检测规则，增强对新兴网络威胁的实时响应与防护能力。

数据集最近研究