cisco-talos-dataset-2.csv.bz2

github2024-09-17 更新2024-09-18 收录

下载链接：

https://github.com/joxeankoret/diaphora-ml

下载链接

链接失效反馈

官方服务：

资源简介：

一个BZ2压缩的CSV文件，包含从Cisco Talos Dataset-2中生成的相似二进制文件的交叉比较数据集。

A BZ2-compressed CSV file containing a cross-comparison dataset of similar binary files generated from the Cisco Talos Dataset-2.

创建时间：

2024-09-16

原始信息汇总

Diaphora ML 数据集概述

数据集内容

cisco-talos-dataset-2.csv.bz2: 一个BZ2压缩的CSV文件，包含从Cisco Talos Dataset-2中生成的相似二进制文件的交叉比较数据。
diaphora-amalgamation.csv.bz2: 一个BZ2压缩的CSV文件，包含Diaphora的测试套件、问题文件以及Cisco Talos Dataset-2文件的交叉比较数据，称为“the amalgamation”。

数据集生成工具

create_dataset.py: 用于构建数据集的Python工具，通过交叉比较工具认为相同的二进制文件生成数据集。目前仅考虑以下两条规则：1) 99%的函数具有相同的地址，或2) 95%的函数名相同（忽略自动生成的函数名）。
train_dataset.py: 用于训练数据集并构建模型的Python工具，支持多种其他用例，请参阅其帮助文档获取更多详细信息。
validate_against_diff.py: 用于检查ML模型与保存的Diaphora差异结果数据库的Python工具，主要用于识别已训练ML模型中的潜在误报。

示例数据集

mini-dataset: 一个包含少量二进制可执行文件的目录，作为示例数据集。
run.sh: 示例脚本，用于导出mini-dataset目录中的每个二进制文件，生成CSV文件交叉比较所有导出的二进制文件，并将创建的数据集拆分为通常的训练、验证和测试数据集；然后使用决策树算法训练模型，并验证其对测试和验证数据集的有效性。请记得在文件/tools/diaphora-export.h中更改IDA和Diaphora的路径。

搜集汇总

数据集介绍

构建方式

在构建cisco-talos-dataset-2.csv.bz2数据集时，采用了基于二进制文件的交叉比较方法。具体而言，通过使用Diaphora工具，对Cisco Talos Dataset-2中的相似二进制文件进行分析，并根据两个主要规则生成数据集：一是99%的函数具有相同的地址，二是95%的函数名称相同（忽略自动生成的名称）。这一过程通过create_dataset.py脚本实现，确保了数据集的高质量和一致性。

使用方法

使用cisco-talos-dataset-2.csv.bz2数据集时，首先需解压BZ2文件以获取CSV格式的数据。随后，可通过train_dataset.py脚本对数据集进行训练，生成机器学习模型。此外，validate_against_diff.py工具可用于验证模型对已保存的Diaphora差异结果数据库的准确性，从而识别潜在的误报。通过这些工具和脚本，用户能够高效地利用该数据集进行二进制文件相似性分析和模型训练。

背景与挑战

背景概述

在二进制分析领域，Diaphora ML项目旨在通过机器学习技术提升二进制文件的比较与分析效率。该项目由主要研究人员Joxean Koret及其团队开发，核心研究问题聚焦于如何通过自动化手段识别和比较相似的二进制文件。该数据集cisco-talos-dataset-2.csv.bz2作为Diaphora ML工具的一部分，由Cisco Talos Dataset-2中的相似二进制文件交叉比较生成，其创建时间可追溯至2024年。该数据集不仅为二进制分析提供了丰富的训练数据，还对提升二进制文件的自动化分析能力具有重要影响。

当前挑战

在构建cisco-talos-dataset-2.csv.bz2数据集的过程中，主要挑战在于如何准确识别和比较二进制文件中的相似性。当前的规则仅考虑了函数地址和函数名称的匹配度，这可能导致误判。此外，数据集的生成依赖于复杂的交叉比较算法，如何确保算法的效率和准确性也是一大难题。在应用层面，如何利用该数据集训练出高效的机器学习模型，以识别潜在的误报，同样是当前面临的重要挑战。

常用场景

经典使用场景

在二进制分析领域，cisco-talos-dataset-2.csv.bz2数据集的经典使用场景主要体现在通过机器学习技术对相似二进制文件进行交叉比较。该数据集通过分析函数地址和函数名称的相似度，帮助研究人员识别和验证二进制文件之间的相似性，从而提升反汇编和逆向工程的效率。

解决学术问题

该数据集解决了二进制分析中常见的学术研究问题，如二进制文件的自动分类和相似性检测。通过提供高质量的交叉比较数据，它有助于研究人员开发和验证新的机器学习模型，从而提高二进制文件分析的准确性和效率。这一进展对于网络安全和软件工程领域具有重要意义。

实际应用

在实际应用中，cisco-talos-dataset-2.csv.bz2数据集被广泛用于网络安全领域，特别是在恶意软件分析和漏洞检测中。通过比较已知和未知的二进制文件，安全专家能够快速识别潜在的恶意软件变种或漏洞，从而采取相应的防御措施。此外，该数据集还支持软件开发过程中的代码重用检测和版权保护。

数据集最近研究