MalDICT

Name: MalDICT
Creator: 物理科学实验室
Published: 2023-10-18 12:36:26
License: 暂无描述

arXiv2023-10-18 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2310.11706v1

下载链接

链接失效反馈

官方服务：

资源简介：

MalDICT是由物理科学实验室创建的一套综合数据集，专注于恶意软件的多样化分类任务。该数据集包含近550万个恶意文件，分为四个子集：行为、平台、漏洞和打包器，分别支持不同的分类任务。通过ClarAVy工具，这些文件被精确标记，涵盖了75种不同的恶意软件行为、43种平台类型、128种漏洞和79种打包技术。MalDICT的创建旨在推动对非传统恶意软件分类任务的研究，增强机器学习模型在识别新兴恶意软件特征方面的能力。

MalDICT is a comprehensive dataset created by the Physical Science Laboratory, focusing on diversified malware classification tasks. This dataset contains nearly 5.5 million malicious files, divided into four subsets: Behavior, Platform, Vulnerability, and Packer, which respectively support distinct classification tasks. Labeled precisely via the ClarAVy tool, these files cover 75 distinct malware behaviors, 43 platform types, 128 vulnerabilities, and 79 packing techniques. MalDICT was developed to advance research on non-traditional malware classification tasks and enhance the capability of machine learning models to identify emerging malware features.

提供机构：

物理科学实验室

创建时间：

2023-10-18

搜集汇总

数据集介绍

构建方式

在恶意软件分析领域，构建高质量标注数据集面临严峻挑战。MalDICT数据集的构建依托于自主研发的ClarAVy工具，该工具能够解析90种不同反病毒产品的882种标签格式。研究团队从VirusShare语料库中获取了超过4000万份恶意文件的病毒扫描报告，通过ClarAVy的多阶段处理流程——包括标签解析、词法分类、别名消解和置信度排名——最终提取出行为、平台、漏洞和加壳器四类语义标签。为确保标签准确性，构建过程中采用了严格的共识机制，行为与平台标签需至少五个独立反病毒引擎共同确认，而稀有标签则保留最低阈值。

使用方法

研究者可通过多种技术路径利用该数据集推进恶意软件分析研究。数据集提供文件哈希值、ClarAVy标签排名以及PE文件的EMBER特征向量和消毒可执行文件，支持静态分析与机器学习建模。针对行为分类任务，建议采用时序验证策略，以评估模型抵抗概念漂移的能力。对于漏洞和加壳器分类，可采用分层抽样方法处理类别不平衡问题。基准实验表明，深度神经网络与梯度提升树模型在该数据集上均存在显著优化空间，特别是行为分类任务对模型泛化能力提出了更高要求。

背景与挑战

背景概述

在恶意软件分析领域，传统研究长期聚焦于恶意文件检测与家族分类两大任务，忽视了恶意软件在行为模式、运行平台、漏洞利用及加壳方式等多元属性的识别价值。为填补这一研究空白，由美国马里兰大学巴尔的摩分校、物理科学实验室及博思艾伦咨询公司的研究人员于2023年联合构建了MalDICT基准数据集。该数据集通过自主研发的ClarAVy反病毒标签解析工具，对来自VirusShare语料库的近550万个恶意文件进行了精细化标注，涵盖行为、平台、漏洞和加壳四大分类维度。MalDICT的发布首次为学术界提供了大规模、多属性的恶意软件标注资源，其行为标签数量达到75类，远超此前仅支持11类行为的SOREL数据集，显著拓展了机器学习在恶意软件细粒度分析中的应用边界，对推动下一代自适应威胁检测系统的研发具有里程碑意义。

当前挑战

MalDICT数据集旨在解决的领域核心挑战在于突破传统恶意软件二元分类（恶意/良性）及家族分类的局限，实现对恶意软件多维度属性（如行为、平台、漏洞、加壳）的精准识别与分类。这一任务面临模型需处理高度不平衡的类别分布、应对概念漂移以及跨时间泛化能力不足等难题。在数据集构建过程中，研究团队遭遇了多重技术挑战：首先，反病毒产品标签格式高度异构，涉及90种产品共882种标签格式，需设计高精度解析器以统一语义；其次，原始标签噪声显著，需开发基于编辑距离与共现统计的别名消歧算法，并引入抗相关投票机制以提升标注置信度；此外，为平衡数据代表性，需对高频标签进行降采样并对稀有标签设置阈值，同时针对不同属性设计时序与非时序的数据划分策略，以分别评估模型在应对新型恶意软件与稳定属性识别上的性能。

常用场景

经典使用场景

在恶意软件分析领域，MalDICT数据集为机器学习模型提供了多维度分类任务的标准化评估基准。该数据集通过其独特的ClarAVy标签解析工具，从海量反病毒扫描报告中提取出行为、平台、漏洞利用和加壳器四类关键属性标签，构建了涵盖近550万个恶意文件的综合性语料库。研究者可利用该数据集训练和验证模型在非传统分类任务上的性能，例如识别恶意软件的具体攻击行为或所利用的系统漏洞，从而超越传统的恶意/良性二元分类或家族分类范式。

解决学术问题

MalDICT数据集有效解决了恶意软件机器学习研究中长期存在的标签稀缺与维度单一问题。传统研究高度集中于恶意检测和家族分类，而该数据集首次系统性提供了行为、平台、漏洞和加壳器四个维度的公开基准数据，其中行为标签数量达到75个，远超此前仅支持11个行为标签的SOREL数据集。这使学术界能够深入探索恶意软件的多属性识别，评估模型在概念漂移和分布外数据上的鲁棒性，尤其通过时间划分的训练测试集模拟了模型对未来新型恶意软件的泛化能力，推动了分类任务多样性与模型泛化性的研究进展。

实际应用

在实际网络安全防御中，MalDICT数据集支撑的模型能够为安全分析师提供更精细的威胁情报。通过准确识别恶意软件的具体行为（如勒索、蠕虫、下载器）、目标平台（如Windows、Android、PDF）、所利用的漏洞（如CVE编号）以及使用的加壳工具，自动化系统可以快速对入侵事件进行归因分析和风险评估。例如，识别出利用特定漏洞的恶意软件可帮助机构优先修补相关系统；检测到特定加壳器则有助于揭示攻击者的工具链特征，从而提升威胁狩猎和事件响应的效率与精准度。

数据集最近研究