Avast-CTU Public CAPE Dataset

Name: Avast-CTU Public CAPE Dataset
Creator: 捷克技术大学
Published: 2022-09-06 21:22:27
License: 暂无描述

arXiv2022-09-06 更新2024-06-21 收录

下载链接：

https://github.com/avast/avast-ctu-cape-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Avast-CTU Public CAPE Dataset是由捷克技术大学和Avast Software合作创建的，包含48,976个恶意软件样本，这些样本来自10个不同的恶意软件家族，主要收集于2017至2019年间。数据集通过CAPEv2沙箱生成详细的JSON报告，记录了恶意软件的行为和静态特征。该数据集旨在支持机器学习和人工智能领域的研究，特别是在恶意软件检测和行为分析方面，帮助研究者开发和评估新的检测方法，以应对不断变化的恶意软件威胁。

The Avast-CTU Public CAPE Dataset was jointly created by the Czech Technical University and Avast Software. It contains 48,976 malware samples belonging to 10 distinct malware families, which were primarily collected between 2017 and 2019. The dataset generates detailed JSON reports via the CAPEv2 sandbox, recording the behavioral and static characteristics of the malware. This dataset is designed to support research in the fields of machine learning and artificial intelligence, particularly in malware detection and behavioral analysis, to assist researchers in developing and evaluating novel detection methods to counter the evolving malware threats.

提供机构：

捷克技术大学

创建时间：

2022-09-06

搜集汇总

数据集介绍

构建方式

在恶意软件检测领域，动态行为数据的稀缺性促使Avast-CTU Public CAPE Dataset的构建。该数据集通过CAPEv2沙箱系统，在模拟真实个人计算机环境的虚拟机上执行恶意样本，并记录其完整行为日志。数据收集于2017年至2019年期间，涵盖48,976个样本，分为10个恶意软件家族，每个样本均提供SHA256哈希值、家族分类、类型及检测日期等元数据。构建过程中，沙箱配置了典型应用和网络连接，以确保行为日志的真实性与丰富性，最终生成包含静态特征与动态行为摘要的JSON报告。

特点

该数据集的核心特点在于其高保真度的行为日志与时间跨度。JSON报告不仅包含样本的静态PE文件属性，还详细记录了进程树、API调用及系统操作等动态行为，为研究恶意软件演化提供了多维视角。数据覆盖多个恶意软件家族，如Emotet和Trickbot，且样本时间分布广泛，有助于分析概念漂移与行为变迁。此外，数据集提供完整报告与精简报告两种格式，精简报告聚焦关键行为摘要与静态特征，既避免了标签泄露风险，又降低了计算负担，平衡了数据深度与实用性。

使用方法

研究者可利用该数据集进行恶意软件分类、概念漂移分析及行为检测模型开发。使用前需按时间戳划分训练集与测试集，以模拟真实检测场景中的时序依赖性。数据以JSON格式提供，可直接应用于分层多实例学习（HMIL）等模型，无需额外特征工程。例如，通过Mill.jl库处理精简报告，可训练家族分类器；结合完整行为日志，能深入探究恶意软件战术的泛化模式。数据集还支持对比静态与动态特征的检测效能，为优化低误报率分类器提供基准。

背景与挑战

背景概述

在网络安全领域，恶意软件检测技术面临日益严峻的挑战，每天涌现数百万新型恶意样本，对用户设备与数据安全构成持续威胁。为应对这一挑战，Avast软件公司与捷克技术大学人工智能中心的研究团队于2022年发布了Avast-CTU Public CAPE Dataset。该数据集聚焦于恶意软件行为分析，通过CAPEv2沙箱采集了2017至2019年间48,976个恶意样本的完整执行日志，涵盖银行木马、远程访问工具等10类恶意家族。其核心价值在于首次公开提供高保真行为数据，为研究恶意软件演化规律、概念漂移现象及基于动态特征的检测模型奠定了关键基础，推动了人工智能在恶意软件分析领域的深度应用。

当前挑战

该数据集致力于解决恶意软件家族分类与行为检测的核心难题，其挑战主要体现在两方面：在领域问题层面，恶意软件作者持续采用代码混淆、加密及行为变异等手段规避检测，导致数据分布动态变化，同时标注噪声与极低误报率要求对分类器鲁棒性构成严峻考验；在构建过程中，完整行为日志体积庞大（部分超800MB），需设计高效数据结构以支持机器学习处理，且需平衡行为特征与静态特征的融合表征，避免标签泄露风险。这些挑战共同指向了开发适应概念漂移、兼顾效率与精度的新型检测方法的迫切需求。

常用场景

经典使用场景

在恶意软件检测领域，Avast-CTU Public CAPE Dataset 作为首个公开的、包含丰富行为日志的数据集，其经典使用场景聚焦于基于动态行为分析的恶意软件分类研究。该数据集通过 CAPEv2 沙箱生成的 JSON 报告，详细记录了样本执行过程中的系统调用、进程树及 API 序列，为机器学习模型提供了多层次的行为特征。研究者可借此构建分类器，精准识别如 Emotet、Trickbot 等十大恶意软件家族，同时探索行为模式在时间维度上的演化规律。

衍生相关工作

该数据集的发布催生了多项经典衍生研究，主要集中在行为特征建模与时序分析方向。例如，基于分层多实例学习（HMIL）的框架被广泛应用于直接处理 JSON 报告，避免了特征工程的开销；同时，研究者利用其时间划分特性，开发了针对概念漂移的适应性分类器。此外，该数据集还促进了图神经网络在 API 调用关系建模、以及强化学习在动态检测策略优化等跨领域方法的探索与验证。

数据集最近研究