five

Code_Signing_Abuse_Dataset

收藏
github2026-01-20 更新2026-01-22 收录
下载链接:
https://github.com/XingTuLab/Code_Signing_Abuse_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含一个CSV表和一个证书文件的ZIP文件夹。CSV文件主要记录了滥用证书的元数据,如哈希值、序列号、主题、颁发者、有效期和滥用类别,并提供了每个证书签名的代表性软件样本的VirusTotal报告。ZIP文件夹包含CSV中列出的所有滥用证书的原始.cer文件。每个文件以其MD5值命名,证书总数(2,072个)与论文第IV.C节的描述一致。

This dataset includes a CSV table and a ZIP folder of certificate files. The CSV document primarily records metadata of abused digital certificates, such as hash values, serial numbers, subjects, issuers, validity periods, and abuse categories, and also provides VirusTotal analysis reports for representative software samples signed by each certificate. The ZIP folder contains the original .cer files of all abused certificates listed in the CSV table. Each file is named after its MD5 hash value, and the total count of certificates (2,072) matches the description in Section IV.C of the accompanying paper.
创建时间:
2026-01-19
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称:Understanding the Status and Strategies of the Code Signing Abuse Ecosystem
  • 存储库地址:https://github.com/XingTuLab/Code_Signing_Abuse_Dataset
  • 永久归档地址:https://doi.org/10.5281/zenodo.17666996
  • 关联论文:Understanding the Status and Strategies of the Code Signing Abuse Ecosystem
  • 论文发表会议:Symposium on Network and Distributed System Security (NDSS), 2026
  • 许可证:MIT License

数据集内容与结构

  • 主要文件:包含一个CSV表格和一个存放证书文件的ZIP文件夹。
  • CSV文件内容:记录了滥用证书的元数据,包括哈希值、序列号、主题、颁发者、有效期、滥用类别,并为每个证书提供了一个代表性软件样本的VirusTotal报告。
  • ZIP文件夹内容:包含CSV中列出的所有滥用证书的原始.cer文件。每个文件以其MD5值命名。
  • 证书总数:2,072个,与论文第IV.C节描述一致。

引用信息

  • 论文引用格式:Hanqing Zhao, Yiming Zhang, Lingyun Ying, Mingming Zhang, Baojun Liu, Haixin Duan, Zi-Quan You, and Shuhao Zhang. Understanding the Status and Strategies of the Code Signing Abuse Ecosystem. In Symposium on Network and Distributed System Security (NDSS), 2026.
搜集汇总
数据集介绍
main_image_url
构建方式
在代码签名滥用生态系统的研究背景下,该数据集的构建采用了系统化的实证分析方法。研究人员从公开的恶意软件样本库和安全威胁情报平台中,收集了涉及滥用行为的数字证书。通过自动化脚本提取了每份证书的元数据,包括哈希值、序列号、颁发者、有效期等关键字段,并关联了由这些证书签名的代表性软件样本在VirusTotal平台的检测报告。最终整理出的CSV表格与原始证书文件共同构成了一个包含2072份滥用证书的结构化数据集,确保了数据的可追溯性与完整性。
使用方法
研究人员可利用该数据集深入探究代码签名证书的滥用模式与生态特征。通过解析CSV文件中的结构化字段,可以统计不同颁发机构、有效期或滥用类别的分布情况,进而识别高风险证书的共性。结合附带的原始证书文件,能够进行更深入的密码学分析或签名验证实验。数据集中的VirusTotal报告链接则为关联证书与实际恶意软件行为提供了桥梁,支持跨平台威胁情报的整合分析,助力于开发更有效的证书滥用检测与防御机制。
背景与挑战
背景概述
在网络安全领域,代码签名机制作为软件身份验证与完整性的核心保障,其滥用行为已成为恶意软件传播的关键途径。Code_Signing_Abuse_Dataset由研究人员韩青赵、张一鸣等团队于2026年创建,并发表于网络与分布式系统安全研讨会(NDSS)。该数据集旨在系统性地揭示代码签名滥用的生态现状与策略,通过收集和分析数千份被滥用的数字证书及其关联的恶意软件样本,为核心研究问题——如何检测与防御基于合法签名机制的恶意活动——提供了实证基础。该工作不仅深化了对证书滥用技术手法的理解,也为安全社区开发新型检测工具和制定更严格的证书颁发政策提供了关键数据支持,显著推动了软件供应链安全领域的研究进展。
当前挑战
该数据集致力于应对代码签名滥用检测这一复杂领域问题,其核心挑战在于恶意行为者通过窃取、伪造或滥用合法证书,使恶意软件绕过传统安全防御,这要求检测方法能够从海量证书中精准识别异常模式。在构建过程中,研究人员面临多重困难:一是数据收集的隐蔽性与分散性,滥用证书往往混杂于正常软件生态中,需从多源威胁情报平台(如VirusTotal)进行大规模爬取与验证;二是证书元数据与恶意样本的关联分析极具复杂性,需设计自动化流程以提取哈希、颁发者、有效期等关键特征,并确保每个证书与代表性恶意样本的对应关系准确无误;三是数据标注与分类的可靠性,需依据滥用策略(如盗用、冒名)建立清晰的分类体系,并处理证书文件格式多样性带来的解析难题。
常用场景
经典使用场景
在软件安全与恶意代码分析领域,Code_Signing_Abuse_Dataset为研究人员提供了一个系统性的实证分析基础。该数据集通过收录滥用代码签名证书的元数据及其关联的恶意软件样本,典型地应用于检测和分类证书滥用行为。研究者可借助这些数据,深入探究攻击者如何利用合法签名机制绕过安全防护,从而揭示数字证书生态中的薄弱环节。
解决学术问题
该数据集有效应对了代码签名滥用研究中数据稀缺与验证困难的核心挑战。通过整合证书哈希、颁发者、有效期及滥用类别等结构化信息,它支持对滥用策略的量化分析,解决了以往依赖孤立案例难以进行系统性归纳的学术瓶颈。其意义在于为构建更健壮的证书信任模型提供了实证依据,推动了软件供应链安全领域的理论进展。
实际应用
在实际安全运营中,该数据集可直接服务于威胁情报平台与终端防护系统。安全分析师可依据证书滥用模式更新检测规则,及时识别带有恶意签名的软件;企业则能参考数据优化内部证书管理策略,预防供应链攻击。这些应用显著提升了针对高级持续性威胁(APT)的防御能力,保障了关键基础设施的稳定运行。
数据集最近研究
最新研究方向
在软件安全与恶意代码检测领域,代码签名滥用已成为一个日益严峻的威胁,它破坏了数字证书作为信任基石的生态系统。基于Code_Signing_Abuse_Dataset的最新研究,前沿方向聚焦于利用大规模证书元数据与病毒报告,深入剖析滥用策略的演化模式与攻击者行为特征。这些工作不仅关联到供应链安全与勒索软件事件等热点,还推动了自动化检测模型与威胁情报系统的开发,对提升软件分发链的完整性与可靠性具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作