Sysmon info corpus

github2022-06-27 更新2024-05-31 收录

下载链接：

https://github.com/sikkerhet/sysmon-info

下载链接

链接失效反馈

官方服务：

资源简介：

数据集收集自奥斯陆大学的15000多台计算机，包含超过250000条记录。文件名是图像的sha256哈希值，文件内容示例展示了详细的系统监控信息。数据集可自由使用。

The dataset is collected from over 15,000 computers at the University of Oslo, comprising more than 250,000 records. The filenames are the SHA-256 hash values of the images, and the file content examples demonstrate detailed system monitoring information. The dataset is freely available for use.

创建时间：

2022-05-14

原始信息汇总

数据集概述

数据来源

数据收集自奥斯陆大学超过15000台计算机。

数据规模

包含超过250000条记录。

数据内容

每条记录的文件名为图像的SHA256哈希值。
示例文件内容包含以下字段：
- Company
- FileVersion
- IMPHASH
- Image
- MD5
- OriginalFileName
- ParentImage
- Product
- SHA256

使用许可

数据可免费使用。

搜集汇总

数据集介绍

构建方式

Sysmon info corpus数据集构建于奥斯陆大学超过15000台计算机的系统监控数据，涵盖了超过250000条记录。每条记录以文件的SHA256哈希值命名，文件内容以JSON格式存储，详细记录了文件的元数据信息，如公司名称、文件版本、哈希值等。该数据集通过系统监控工具Sysmon收集，确保了数据的广泛性和真实性。

特点

该数据集的特点在于其丰富的数据量和详尽的文件元信息。每条记录不仅包含文件的哈希值（如MD5、SHA256等），还提供了文件的版本信息、公司名称、原始文件名等关键信息。这些信息为恶意软件分析、文件溯源等研究提供了宝贵的数据支持。此外，数据集的结构化JSON格式便于程序化处理和分析，极大提升了数据的使用效率。

使用方法

Sysmon info corpus数据集的使用方法较为直观。用户可以通过文件的SHA256哈希值快速定位特定记录，并解析JSON文件以获取详细的元数据信息。该数据集适用于恶意软件检测、文件完整性验证、系统安全分析等领域。研究人员可通过编程语言（如Python）读取和处理JSON文件，结合其他工具进行深入分析。数据集免费开放，用户可直接从GitHub页面下载并使用。

背景与挑战

背景概述

Sysmon info corpus数据集由奥斯陆大学的研究团队创建，旨在收集和分析来自超过15000台计算机的系统监控数据。该数据集包含了超过250000条记录，每条记录详细记录了文件的元数据信息，如公司名称、文件版本、哈希值等。这些数据为研究恶意软件检测、系统行为分析以及网络安全提供了宝贵的资源。奥斯陆大学作为该领域的先驱，通过这一数据集推动了系统监控和恶意软件分析的研究进展，为学术界和工业界提供了重要的参考。

当前挑战

Sysmon info corpus数据集在构建过程中面临了多方面的挑战。首先，数据采集的规模庞大，涉及超过15000台计算机，如何确保数据的完整性和一致性是一个关键问题。其次，数据的多样性和复杂性要求高效的数据清洗和预处理方法，以去除噪声和冗余信息。此外，数据隐私和安全问题也不容忽视，如何在保护用户隐私的同时提供有价值的研究数据，是数据集构建中的一大难题。最后，数据集的持续更新和维护需要大量的计算资源和人力投入，以确保其时效性和实用性。

常用场景

经典使用场景

Sysmon info corpus数据集在网络安全领域具有广泛的应用，特别是在恶意软件检测和分析方面。研究者可以利用该数据集中的文件哈希值、公司信息和文件版本等元数据，构建高效的恶意软件识别模型。通过分析这些数据，研究人员能够识别出潜在的恶意软件样本，并进一步研究其行为模式和传播机制。

解决学术问题

该数据集为网络安全研究提供了丰富的基础数据，解决了恶意软件检测中数据稀缺的问题。通过提供大量真实的文件元数据，研究者能够更准确地训练和验证恶意软件检测算法，从而提高检测的准确性和效率。此外，该数据集还为研究恶意软件的演化趋势和家族分类提供了重要支持。

衍生相关工作

基于Sysmon info corpus数据集，许多经典的网络安全研究工作得以展开。例如，研究者开发了基于机器学习的恶意软件分类模型，利用数据集中的哈希值和元数据进行训练。此外，该数据集还被用于研究恶意软件的传播路径和家族演化，推动了网络安全领域的理论发展和实践应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集