five

Sysmon info corpus

收藏
github2022-06-27 更新2024-05-31 收录
下载链接:
https://github.com/sikkerhet/sysmon-info
下载链接
链接失效反馈
官方服务:
资源简介:
数据集收集自奥斯陆大学的15000多台计算机,包含超过250000条记录。文件名是图像的sha256哈希值,文件内容示例展示了详细的系统监控信息。数据集可自由使用。

The dataset is collected from over 15,000 computers at the University of Oslo, comprising more than 250,000 records. The filenames are the SHA-256 hash values of the images, and the file content examples demonstrate detailed system monitoring information. The dataset is freely available for use.
创建时间:
2022-05-14
原始信息汇总

数据集概述

数据来源

  • 数据收集自奥斯陆大学超过15000台计算机。

数据规模

  • 包含超过250000条记录。

数据内容

  • 每条记录的文件名为图像的SHA256哈希值。
  • 示例文件内容包含以下字段:
    • Company
    • FileVersion
    • IMPHASH
    • Image
    • MD5
    • OriginalFileName
    • ParentImage
    • Product
    • SHA256

使用许可

  • 数据可免费使用。
搜集汇总
数据集介绍
main_image_url
构建方式
Sysmon info corpus数据集构建于奥斯陆大学超过15000台计算机的系统监控数据,涵盖了超过250000条记录。每条记录以文件的SHA256哈希值命名,文件内容以JSON格式存储,详细记录了文件的元数据信息,如公司名称、文件版本、哈希值等。该数据集通过系统监控工具Sysmon收集,确保了数据的广泛性和真实性。
特点
该数据集的特点在于其丰富的数据量和详尽的文件元信息。每条记录不仅包含文件的哈希值(如MD5、SHA256等),还提供了文件的版本信息、公司名称、原始文件名等关键信息。这些信息为恶意软件分析、文件溯源等研究提供了宝贵的数据支持。此外,数据集的结构化JSON格式便于程序化处理和分析,极大提升了数据的使用效率。
使用方法
Sysmon info corpus数据集的使用方法较为直观。用户可以通过文件的SHA256哈希值快速定位特定记录,并解析JSON文件以获取详细的元数据信息。该数据集适用于恶意软件检测、文件完整性验证、系统安全分析等领域。研究人员可通过编程语言(如Python)读取和处理JSON文件,结合其他工具进行深入分析。数据集免费开放,用户可直接从GitHub页面下载并使用。
背景与挑战
背景概述
Sysmon info corpus数据集由奥斯陆大学的研究团队创建,旨在收集和分析来自超过15000台计算机的系统监控数据。该数据集包含了超过250000条记录,每条记录详细记录了文件的元数据信息,如公司名称、文件版本、哈希值等。这些数据为研究恶意软件检测、系统行为分析以及网络安全提供了宝贵的资源。奥斯陆大学作为该领域的先驱,通过这一数据集推动了系统监控和恶意软件分析的研究进展,为学术界和工业界提供了重要的参考。
当前挑战
Sysmon info corpus数据集在构建过程中面临了多方面的挑战。首先,数据采集的规模庞大,涉及超过15000台计算机,如何确保数据的完整性和一致性是一个关键问题。其次,数据的多样性和复杂性要求高效的数据清洗和预处理方法,以去除噪声和冗余信息。此外,数据隐私和安全问题也不容忽视,如何在保护用户隐私的同时提供有价值的研究数据,是数据集构建中的一大难题。最后,数据集的持续更新和维护需要大量的计算资源和人力投入,以确保其时效性和实用性。
常用场景
经典使用场景
Sysmon info corpus数据集在网络安全领域具有广泛的应用,特别是在恶意软件检测和分析方面。研究者可以利用该数据集中的文件哈希值、公司信息和文件版本等元数据,构建高效的恶意软件识别模型。通过分析这些数据,研究人员能够识别出潜在的恶意软件样本,并进一步研究其行为模式和传播机制。
解决学术问题
该数据集为网络安全研究提供了丰富的基础数据,解决了恶意软件检测中数据稀缺的问题。通过提供大量真实的文件元数据,研究者能够更准确地训练和验证恶意软件检测算法,从而提高检测的准确性和效率。此外,该数据集还为研究恶意软件的演化趋势和家族分类提供了重要支持。
衍生相关工作
基于Sysmon info corpus数据集,许多经典的网络安全研究工作得以展开。例如,研究者开发了基于机器学习的恶意软件分类模型,利用数据集中的哈希值和元数据进行训练。此外,该数据集还被用于研究恶意软件的传播路径和家族演化,推动了网络安全领域的理论发展和实践应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作