five

VisUnpack 数据集|恶意软件检测数据集|机器学习数据集

收藏
arXiv2025-01-11 更新2025-01-14 收录
恶意软件检测
机器学习
下载链接:
http://arxiv.org/abs/2501.06071v1
下载链接
链接失效反馈
资源简介:
VisUnpack 数据集由蒙大拿州立大学等研究机构创建,包含27,106个恶意软件样本,旨在通过静态分析、数据可视化和机器学习技术提升恶意软件分类的准确性。数据集涵盖了多种恶意软件类别和家族,经过动态分析、逆向工程和VirusTotal的交叉验证,确保了数据的可靠性和多样性。该数据集的应用领域主要集中在恶意软件检测与分类,旨在解决现有方法在处理加壳恶意软件时的不足,提供更精确的分类结果和更高的空间效率。
提供机构:
蒙大拿州立大学吉安福尔特计算学院, 乔治亚州立大学计算机科学系, 中密苏里大学计算机科学与网络安全系, 山东大学计算机科学与技术学院
创建时间:
2025-01-11
AI搜集汇总
数据集介绍
main_image_url
构建方式
VisUnpack数据集的构建基于静态分析和数据可视化技术,旨在揭示恶意软件的模式并增强攻击预防能力。首先,研究人员通过解包工具对恶意软件样本进行解包,提取基本块并计算局部相似性描述符。接着,通过增强描述符之间的相关性,生成自分析描述符,并利用机器学习模型进行最终分类。数据集的构建过程还包括对27,106个恶意软件样本的动态分析、逆向工程以及与VirusTotal结果的交叉验证,确保数据集的准确性和可靠性。
使用方法
VisUnpack数据集的使用方法主要围绕其静态分析和数据可视化框架展开。首先,用户可以通过解包工具对恶意软件样本进行预处理,提取基本块并生成局部相似性描述符。接着,利用机器学习模型(如VGG11)对自分析描述符进行分类,识别恶意软件的类别和家族。VisUnpack框架还提供了数据可视化功能,帮助用户更直观地理解恶意软件的结构和行为。该数据集适用于恶意软件检测、分类以及攻击预防的研究,尤其适合需要处理打包恶意软件的场景。
背景与挑战
背景概述
VisUnpack 数据集由 Fangtian Zhong 等研究人员于 2025 年提出,旨在解决恶意软件分类中的关键问题,特别是在处理加壳恶意软件时的挑战。该数据集的创建基于对 Windows 操作系统中恶意软件的广泛研究,涵盖了超过 27,106 个恶意软件样本,涵盖了 46 个不同的恶意软件家族。VisUnpack 数据集的核心研究问题是通过静态分析和数据可视化技术,揭示恶意软件的模式,并提供详细的分类信息,包括恶意软件的类别和家族。该数据集的提出对恶意软件检测和分类领域产生了深远影响,尤其是在处理加壳恶意软件时,提供了更高的分类精度和空间效率。
当前挑战
VisUnpack 数据集面临的挑战主要包括两个方面。首先,恶意软件加壳技术对分类精度的影响显著,许多现有的恶意软件检测方法无法有效处理加壳样本,导致分类结果不可靠。其次,数据集的构建过程中,研究人员需要克服加壳恶意软件的解包难题,并确保解包后的样本能够保留原始恶意软件的特征。此外,数据集的标注过程依赖于多个第三方反病毒产品的结果,这些产品的分类结果存在不一致性,进一步增加了数据集构建的复杂性。VisUnpack 通过引入静态分析、数据可视化和机器学习技术,成功应对了这些挑战,提供了高精度的恶意软件分类框架。
常用场景
经典使用场景
VisUnpack数据集在恶意软件分类领域具有广泛的应用,尤其是在处理加壳恶意软件样本时表现出色。通过静态分析和数据可视化技术,VisUnpack能够揭示恶意软件的模式,并提供详细的恶意软件类别和家族信息。其经典使用场景包括对加壳恶意软件进行解包、计算基于基本块的局部相似性描述符,并通过机器学习进行最终分类。VisUnpack在恶意软件分类任务中达到了99.7%的精确度,显著优于现有的基于数据可视化的方法。
解决学术问题
VisUnpack数据集解决了恶意软件分类中的多个关键学术问题。首先,它有效应对了加壳技术对恶意软件检测的干扰,通过解包和局部相似性计算,显著提高了分类的准确性。其次,VisUnpack不仅能够区分恶意软件的类别,还能识别其家族,提供了更细粒度的分类信息。此外,该数据集通过引入自分析描述符,增强了恶意软件样本之间的相关性,减少了噪声干扰,从而提升了分类模型的鲁棒性。这些贡献为恶意软件检测和防御提供了新的研究思路。
实际应用
VisUnpack数据集在实际应用中具有重要的价值。它能够帮助安全研究人员和反病毒产品更准确地识别和分类恶意软件,尤其是在处理加壳样本时表现出色。通过提供详细的恶意软件类别和家族信息,VisUnpack能够辅助安全团队快速响应恶意软件攻击,减少系统受损的风险。此外,VisUnpack的高精度分类能力使其在企业安全防护、恶意软件行为分析和攻击溯源等场景中具有广泛的应用前景。
数据集最近研究
最新研究方向
近年来,VisUnpack 数据集在恶意软件分类领域的研究方向主要集中在静态分析与数据可视化的结合上。随着恶意软件数量的激增及其复杂性的提升,传统的动态分析方法在效率和资源消耗上存在显著瓶颈。VisUnpack 提出了一种基于静态分析的框架,通过解包恶意软件程序、计算局部相似性描述符,并结合机器学习技术,实现了对恶意软件家族和类别的精准分类。该方法不仅能够有效应对代码混淆和打包技术带来的挑战,还在分类精度和存储效率上取得了显著突破。研究表明,VisUnpack 在处理超过 27,000 个样本的数据集时,分类精度达到 99.7%,同时相比现有方法节省了超过 97% 的存储空间。这一成果为恶意软件检测和防御提供了新的思路,尤其是在应对已知恶意软件家族及其变种时,展现了强大的分类能力。此外,VisUnpack 的研究还揭示了现有反病毒产品在处理打包样本时的不足,进一步推动了学术界和工业界对解包技术的关注与改进。
相关研究论文
  • 1
    Unveiling Malware Patterns: A Self-analysis Perspective蒙大拿州立大学吉安福尔特计算学院, 乔治亚州立大学计算机科学系, 中密苏里大学计算机科学与网络安全系, 山东大学计算机科学与技术学院 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2020)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心 收录

ChinaTravel

ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集,专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息,包括720个航班和5770趟列车,以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求,并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题,特别是在多兴趣点行程安排和用户偏好满足方面,为语言代理在旅行规划中的应用提供了重要的测试平台。

arXiv 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录

CMNEE(Chinese Military News Event Extraction dataset)

CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。

github 收录