Dissecta 数据集

github2025-02-12 更新2025-02-14 收录

下载链接：

https://github.com/admeder/dissecta

下载链接

链接失效反馈

官方服务：

资源简介：

用于未来机器学习模型训练的PE文件特征数据集

PE (Portable Executable) file feature dataset for training future machine learning models

创建时间：

2025-01-23

原始信息汇总

数据集概述

数据集名称

Dissecta

数据集描述

Dissecta是一个用于对PE文件进行静态分析的简单工具，旨在帮助理解恶意软件的PE结构，并生成报告以供进一步分析或与其他工具集成。

数据集格式

报告格式：.dsx (JSON)
数据集格式：JSON

数据集内容

Metadata：文件名、文件大小、时间戳、机器类型等
Hash Sum：md5、sha1、sha256
Readable strings
URLs
Sections：虚拟地址、虚拟大小、数据大小、权限、熵
Imphash
Executable sections opcodes
WINDOWS API calls
Imports

数据集路径

报告路径：./reports/*.dsx
数据集路径：./dataset/dataset.json

相关资源

Bible Malcore：https://bible.malcore.io/ - 提供有关Windows PE文件结构的直观和详细解释。
PEfile Project：https://github.com/erocarrera/pefile - 项目中使用的库，简化了开发过程。

搜集汇总

数据集介绍

构建方式

Dissecta 数据集是在对恶意软件分析的学习背景下构建的，其核心为对PE文件进行静态分析的工具。该数据集通过解析PE文件的`PE结构`，进而生成一份报告，用于后续的分析或与其他工具的集成。此外，项目还包含一个插件系统，以支持项目的可扩展性。

特点

该数据集的特点在于，它不仅包含基本的文件元数据、哈希值、可读字符串、URLs、节区信息等，还包含了imps hash、可执行节区的操作码以及WINDOWS API调用等高级特征。所有这些特征均以`.dsx`（JSON格式）的形式存储在报告中，便于分析和处理。数据集本身则是将这些特征整理后存储在`dataset.json`中，以供机器学习模型训练使用。

使用方法

使用Dissecta数据集，用户首先需要通过工具对PE文件进行静态分析，生成包含丰富特征的报告。随后，用户可以选择将这些特征导入到数据集中，以便于未来的机器学习模型训练。需要注意的是，在不确定是否要将数据加入数据集时，应避免使用`-d`参数，以防止数据拥堵。

背景与挑战

背景概述

Dissecta数据集是在学习恶意软件分析的过程中创建的工具，旨在为PE文件提供静态分析的功能。该数据集的核心研究问题是解析PE文件的结构，从而更好地理解和分析恶意软件。自创建以来，Dissecta数据集以其独特的分析方法和生成的报告，为恶意软件分析领域提供了有力的支持，对于推动该领域的研究具有显著影响。

当前挑战

该数据集面临的挑战主要包括：1) 对PE文件结构分析的深度与准确性；2) 如何将生成的报告有效集成到其他工具中；3) 插件系统的可扩展性；4) 数据集构建过程中，如何确保数据的质量和完整性，以及避免数据拥堵。这些挑战均需在未来的研究中进一步探索和解决。

常用场景

经典使用场景

Dissecta数据集在静态恶意软件分析领域中被广泛运用，其经典使用场景在于作为训练机器学习模型的数据来源，通过对PE文件结构的详细解析，为模型训练提供丰富的特征集，进而提升恶意软件检测的准确性。

衍生相关工作

基于Dissecta数据集的研究衍生出了一系列相关工作，包括改进恶意软件检测算法、开发新的特征提取工具，以及构建更为复杂的恶意软件分析系统，这些工作进一步扩展了Dissecta数据集的应用范围和影响力。

数据集最近研究