COSOCO dataset
收藏arXiv2025-04-04 更新2025-04-08 收录
下载链接:
https://huggingface.co/datasets/k3ylabs/cosoco-imagedataset
下载链接
链接失效反馈官方服务:
资源简介:
COSOCO数据集是由K3Y Ltd公司创建的一个新型数据集,包含3364个良性和恶意软件容器的大型RGB图像。该数据集旨在支持机器学习基于图像的恶意软件检测方法的研究,通过将软件容器的文件系统转换为图像,可以捕捉到恶意软件可能引起的微小变化。数据集支持多种类型的恶意软件、处理器架构和操作系统,以适应不同环境下的研究需求。
The COSOCO dataset is a novel dataset created by K3Y Ltd, which comprises 3,364 large RGB images of both benign and malicious software containers. This dataset is designed to support research on image-based machine learning methods for malware detection: by converting the file systems of software containers into images, it can capture subtle changes induced by malware. The dataset supports multiple types of malware, processor architectures and operating systems, thereby catering to research requirements across different environments.
提供机构:
K3Y Ltd, Sofia, Bulgaria
创建时间:
2025-04-04
搜集汇总
数据集介绍

构建方式
在网络安全领域,Docker容器的广泛使用带来了新的安全挑战,尤其是恶意软件注入的威胁日益严重。COSOCO数据集的构建采用了创新的方法,通过将Docker容器的文件系统转换为大型RGB图像,从而将恶意软件检测问题转化为图像分类任务。具体而言,数据集生成流程包括从Malware Bazaar和APT软件包管理器中提取恶意软件和工具,构建并导出Docker容器的tarball文件,再将这些文件转换为图像和掩码对。这一流程不仅确保了数据的多样性和真实性,还通过沙盒环境和网络模拟技术实现了安全可控的恶意软件激活。
特点
COSOCO数据集作为首个专注于恶意软件感染的Docker容器数据集,具有显著的特点。数据集包含3364个大规模RGB图像,涵盖了10类恶意软件和1297个独特的软件包,确保了数据的广泛覆盖和多样性。每个受感染的容器图像都配有掩码,精确标注了恶意软件修改的字节位置,为研究提供了高精度的标注信息。此外,数据集采用了基于恶意软件类别的分层抽样方法,分为训练集、验证集和测试集,比例为70:10:20,确保了模型评估的可靠性和泛化能力。
使用方法
COSOCO数据集的使用方法主要围绕基于深度学习的恶意软件检测任务展开。研究人员可以利用数据集中的RGB图像和掩码对,训练卷积神经网络(CNN)模型进行端到端的容器安全检测。数据集支持多种CNN架构,如ResNet18、MobileNetV2等,并提供了流式、基于补丁的分类方法,有效解决了大图像内存占用问题。此外,数据集的掩码信息可用于模型的可解释性分析,帮助定位恶意软件修改的具体字节位置。数据集还附带可扩展的数据生成管道,支持用户自定义操作系统、CPU架构和恶意软件类型,进一步推动相关研究的深入发展。
背景与挑战
背景概述
COSOCO数据集由K3Y Ltd等机构的研究团队于2025年创建,旨在解决Docker容器环境中的恶意软件检测难题。随着容器技术的广泛应用,恶意软件注入成为新兴安全威胁,传统基于签名的检测方法因混淆和多态技术而失效。该数据集首次将容器文件系统转化为大规模RGB图像,包含3,364个良性及受感染容器样本,通过卷积神经网络实现端到端检测,为云安全和容器安全领域设立了新基准。其创新性在于将二进制文件系统映射为视觉可分析对象,突破了传统检测的局限性。
当前挑战
该数据集主要面临两大挑战:在领域问题层面,需解决大规模容器文件系统中微小恶意特征的检测难题,类似在广域图像中定位微小目标,且恶意修改仅影响0.32%的字节均值;在构建过程中,需克服容器动态行为捕获、多架构/操作系统兼容性,以及200MB文件大小限制下的数据标准化问题。此外,恶意软件激活需在沙箱环境中模拟真实网络行为,而空间填充曲线转换算法需保持字节空间关系,这些技术难点共同构成了数据集构建的核心挑战。
常用场景
经典使用场景
在网络安全领域,Docker容器的广泛应用带来了新的安全隐患,恶意软件注入成为亟待解决的问题。COSOCO数据集通过将Docker容器的文件系统转化为RGB图像,为研究人员提供了一个独特的视角来检测容器中的恶意软件。该数据集最经典的使用场景是利用卷积神经网络(CNN)对容器图像进行流式、基于补丁的分类,从而识别被恶意软件篡改的容器。这种方法不仅突破了传统基于签名的检测技术的局限性,还为容器安全提供了全新的解决方案。
解决学术问题
COSOCO数据集解决了恶意软件检测中的多个关键学术问题。首先,它突破了传统基于签名检测方法的局限性,能够有效应对混淆和多态性恶意软件的挑战。其次,它将整个容器的文件系统作为输入,而非单独的文件或内存转储,从而捕捉到恶意软件对文件系统的细微修改。此外,该数据集通过引入基于多实例学习(MIL)的流式补丁分类方法,为大规模图像中的小目标检测提供了新的研究思路。这些贡献为容器安全领域的研究奠定了重要基础。
衍生相关工作
COSOCO数据集衍生了一系列重要的相关研究工作。在方法论层面,它启发了基于空间填充曲线(如希尔伯特曲线)的二进制数据可视化技术研究。在模型架构方面,推动了针对大规模图像中小目标检测的CNN优化研究。数据集还促进了容器安全领域的多项后续研究,包括基于语义分割的精确字节定位方法,以及结合transformer架构的字节级表征学习。这些衍生工作共同推动了容器安全检测技术的进步,形成了以COSOCO为基础的研究生态。
以上内容由遇见数据集搜集并总结生成



