HackerSignal

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/DatasetSubmission/HackerSignal

下载链接

链接失效反馈

官方服务：

资源简介：

HackerSignal是一个大规模、多源的数据集，通过共享的CVE标识符空间将黑客社区讨论、漏洞利用数据库、漏洞公告和修复提交联系起来。数据集包含7,447,646条文档，覆盖64个公共论坛/来源，时间跨度为1988年至2026年。数据分为8个来源层，包括黑客社区论坛帖子、发布的漏洞利用代码和公告、NVD CVE描述、安全问答内容、供应商公告、公开的漏洞赏金报告、漏洞修复提交消息以及活跃利用指标。数据集支持三个基准任务：CVE链接检索（CVE-R）、漏洞利用类型分类（ETC）和时间泛化（TG）。每个记录包含统一ID、来源数据集、来源层、文本、时间戳、论坛ID、作者哈希和发布模式等字段。数据集遵循特定的发布治理规则，包括可重新分发的文本、研究用文本和仅元数据/指针。使用限制包括仅用于防御性网络安全研究，禁止用于自动漏洞利用代码生成或恶意软件训练等用途。数据集存在已知问题，如HuggingFace数据集查看器行数显示不完整、内容扫描器警告等，并存在英语语言偏向、历史论坛数据偏向2015-2017年等局限性。

HackerSignal is a large-scale, multi-source dataset that links hacker community discussions, exploit databases, vulnerability announcements, and fix commits through a shared CVE identifier space. The dataset contains 7,447,646 documents, covering 64 public forums/sources, spanning from 1988 to 2026. The data is divided into 8 source layers, including hacker community forum posts, published exploit code and announcements, NVD CVE descriptions, security Q&A content, vendor announcements, public bug bounty reports, vulnerability fix commit messages, and active exploit indicators. The dataset supports three benchmark tasks: CVE link retrieval (CVE-R), exploit type classification (ETC), and temporal generalization (TG). Each record contains fields such as a unified ID, source dataset, source layer, text, timestamp, forum ID, author hash, and publication mode. The dataset follows specific release governance rules, including redistributable text, research-only text, and metadata/pointers only. Usage restrictions include use only for defensive cybersecurity research, prohibiting uses such as automated exploit code generation or malware training. The dataset has known issues, such as incomplete row display in the HuggingFace dataset viewer, content scanner warnings, etc., and has limitations such as English language bias and historical forum data bias towards 2015-2017.

创建时间：

2026-05-03

原始信息汇总

HackerSignal 数据集详情

数据集概览

属性	数值
文档数量	7,447,646（精确去重后）
数据来源	64 个公开论坛/来源标识符
来源层级	8 层
时间跨度	1988 年 - 2026 年
CVE 关联行数	360,004
基准任务	3 个

语言与许可

语言：英语、中文、俄语
许可证：CC BY 4.0

数据集规模

大小范围：1M ~ 10M 条记录
完整数据集：单个数据集分割（full），包含 7,447,646 条示例
样本数据集：10,000 条分层抽样子集

数据来源层级

层级	描述	行数
`hacker_community`	黑客/安全社区的论坛帖子	6,974,128
`exploit_archive`	已发布的利用代码和安全公告	197,393
`vulnerability_reference`	NVD 的 CVE 描述和结构化公告	150,916
`exploit_qa_reference`	安全问答和教程内容	68,791
`advisory_reference`	供应商和第三方安全公告	30,361
`bug_bounty_disclosure`	公开的漏洞赏金报告	13,720
`fix_commit_reference`	漏洞修复提交信息	11,104
`exploitation_reference`	活跃利用指标（CISA KEV）	1,233

任务类别

文本分类（text-classification）
文本检索（text-retrieval）

基准任务

任务 1：CVE 链接检索 (CVE-R)

跨来源时序分布外实体定位：给定利用/公告证据文本，从包含 340K 条描述的语料库中检索正确的 NVD CVE 条目。

分割	行数
训练集	56,692
验证集	2,584
测试集	1,990
语料库	340,536

任务 2：利用类型分类 (ETC)

8 类时序分布外分类：将利用帖子按类型分为注入、XSS、内存损坏、DoS、文件包含、认证/访问绕过、RCE 和信息泄露。

分割	行数
训练集	64,413
验证集	4,735
测试集	1,735

任务 3：时间泛化 (TG)

与任务 1 相同的检索公式，但具有严格的 CVE 不重叠约束：训练集和测试集的 CVE 集合互不相交。

分割	行数
训练集	56,833
验证集	2,535
测试集	1,898
语料库	340,536

数据特征

主要语料库每条记录包含以下字段：

字段名	类型	描述
`unified_id`	字符串	SHA-256 派生的发布标识符
`source_dataset`	字符串	输入源文件或数据集名称
`source_file`	字符串	源文件名
`source_format`	字符串	源文件格式
`source_layer`	字符串	标准化层级
`source_record_id`	字符串	源记录标识符
`forum_id`	字符串	来源标识符
`timestamp`	字符串	ISO 8601 格式的 UTC 发布时间
`author_hash`	字符串	SHA-256 假名化作者
`text`	字符串	UTF-8 帖子/公告文本（最长 8000 字符）
`text_raw`	字符串	原始文本
`text_length`	整数	处理文本长度
`text_raw_length`	整数	原始文本长度
`text_sha256`	字符串	处理文本的 SHA-256 哈希
`text_raw_sha256`	字符串	原始文本的 SHA-256 哈希
`thread_url`	字符串	帖子 URL
`thread_title`	字符串	帖子标题
`section`	字符串	板块信息
`post_index`	整数	帖子索引
`post_id`	字符串	帖子标识符
`thread_id`	字符串	帖子标识符
`scraped_at`	字符串	爬取时间
`reply_count`	整数	回复数
`view_count`	整数	查看数
`tags`	字符串序列	标签
`cve_refs`	字符串序列	CVE 引用
`dataset_generated_at`	字符串	数据集生成时间
`release_mode`	字符串	发布模式
`released_artifact`	字符串	发布产物
`redaction_reason`	字符串	编辑原因

数据集配置

该数据集提供多种配置：

default：完整数据集（unified_hacker_communities_neurips_public.jsonl），包含全部记录
sample：10K 分层样本（hackersignal_sample_10k.jsonl）
task1_cve_linkage：CVE 链接检索基准任务（包含训练、验证、测试和语料库分割）
task2_exploit_type：利用类型分类基准任务（包含训练、验证、测试分割）
task3_temporal_generalization：时间泛化基准任务（包含训练、验证、测试和语料库分割）

发布管理

记录根据来源遵循特定的发布模式：

redistributable_text（5 个来源）：完整文本在公共领域或 CC 许可下包含
research_text_with_terms（9 个来源）：包含文本并注明来源，禁止商业使用
metadata_or_pointer_only（13 个来源）：仅包含元数据、时间戳、CVE 引用、文本哈希和长度；原始文本不提供

搜集汇总

数据集介绍

构建方式

在网络安全威胁情报领域，大规模、多源异构数据的整合与对齐是构建有效分析模型的关键挑战。HackerSignal数据集通过共享的CVE标识符空间，实现了对黑客社区讨论、漏洞数据库、安全公告及修复提交等八类异构数据源的深度链接与统一。构建过程中，研究者从64个公开论坛与安全信息来源中收集原始数据，经过精确去重处理后形成约745万份文档，并依据来源性质将其划分为黑客社区、漏洞利用存档、NVD漏洞引用等8个源层。每一条记录均包含统一的SHA-256衍生标识符、时间戳、伪匿名化作者哈希及完整的治理信息，确保数据来源的可追溯性与合规性。

特点

该数据集具有鲜明的时间结构化特征与多任务基准测试能力。其时间跨度覆盖1988年至2026年，为时序领域泛化研究提供了天然的实验场。数据集中包含逾36万条与CVE直接关联的记录，并围绕这些关联设计了三大基准任务——CVE链接检索、漏洞利用类型分类以及时序泛化测试——分别从实体对齐、文本分类和分布外泛化三个维度评估模型在网络安全领域的表现。此外，数据集遵循精细的发布治理模式，区分可重新分发文本、带有使用条款的研究文本以及仅含元数据的记录类型，在促进开放研究的同时保障了数据来源方的权益与安全。

使用方法

HackerSignal数据集可通过HuggingFace Datasets库便捷加载与使用。用户可使用`load_dataset`函数分别调用`sample`配置加载10K分层样本用于快速实验，选用`default`配置加载完整语料库以进行大规模训练，或针对特定任务选择`task1_cve_linkage`、`task2_exploit_type`和`task3_temporal_generalization`等配置进行基准评估。每条记录包含标准化字段如`unified_id`、`text`、`timestamp`及`cve_refs`等，便于研究者快速提取特征与标签进行下游任务建模。需特别注意的是，数据集仅供防御性网络安全研究使用，禁止用于自动化漏洞利用代码生成或用户去匿名化等恶意目的，使用时亦需遵守各数据源特定的条款与限制。

背景与挑战

背景概述

HackerSignal数据集由匿名研究团队于2026年创建，旨在系统化地整合黑客社区讨论、漏洞利用数据库、安全公告及修复提交等多源异构信息，并统一映射至通用漏洞披露（CVE）标识符空间。该数据集涵盖1988至2026年间来自64个公开来源的逾740万条记录，其中36万余条与CVE直接关联，为网络安全威胁情报研究提供了迄今规模最大、时间跨度最长的结构化语料库。其发布显著推动了安全领域自然语言处理的发展，特别是在跨来源实体链接、漏洞利用类型分类及时间泛化等前沿方向，已成为评估模型在动态威胁环境下表现的重要基准。

当前挑战

HackerSignal所解决的领域挑战在于，网络安全语料高度碎片化且缺乏统一标注，传统方法难以在时间偏移条件下实现准确的威胁关联与分类。数据集构建亦面临多重难题：多源格式异构性要求设计八层标准化框架以实现字段对齐；严格去重后仍需应对约8%的近重复噪声；1.57M行短文本（不足8个词元）对模型分类形成障碍。此外，来源许可差异导致13个源仅能发布元数据，迫使研究者在信息完整性合规性间寻求平衡。时态泛化任务要求模型在CVE完全不相交的训练/测试集上检索，这极大考验了系统对未知漏洞的推理能力。

常用场景

经典使用场景

在网络安全领域，HackerSignal数据集凭借其跨越1988年至2026年的庞大规模与多源异构特性，成为威胁情报分析研究的基石性资源。该数据集最经典的使用场景聚焦于文本分类与信息检索两大核心任务，研究者可基于其提供的基准任务框架，构建能够精准识别漏洞类型、串联跨源漏洞实体以及评估模型时序泛化能力的智能系统。通过将黑客论坛讨论、漏洞数据库、安全公告及修复提交等八类来源的数据统一映射至共享的CVE标识空间，该数据集为训练和评估面向真实世界网络安全威胁的自然语言处理模型提供了高质量、带标注的测试平台。

实际应用

在实际应用中，HackerSignal数据集为构建企业级威胁情报平台和安全运营中心提供了不可或缺的支撑。基于其丰富的多源融合数据，安全团队可以训练自动化的漏洞预警系统，实时监控黑客论坛中的讨论动向，并迅速将暗流涌动的话语与公开的CVE漏洞库相关联，从而在攻击向量被大规模利用前获得预警。此外，该数据集可被用于开发智能分类引擎，自动将安全报告中的攻击描述归类为SQL注入或远程代码执行等具体类型，极大提升安全分析师的工作效率。在事件响应与取证分析领域，借助其时间戳和CVE关联信息，研究人员能够回溯漏洞的生命周期，追踪其从最初的黑客讨论到漏洞公开、再到修复提交的完整演化路径，从而为资产管理、补丁优先级排序和历史攻击溯源提供数据驱动的决策支持。

衍生相关工作

HackerSignal数据集的发布催生了多个方向的衍生研究工作，显著拓展了其在网络安全人工智能中的影响。在模型层面，研究者基于其基准任务开发了专门针对漏洞检索的稀疏与稠密检索模型，并探索了基于对比学习的时间维度表示学习方法，以捕捉漏洞概念的演化特征。在系统层面，该数据集已被用作构建跨源威胁情报知识图谱的核心语料，推动了将非结构化文本映射为结构化威胁情报实体关系的图神经网络研究。在评估框架方面，其严格的时间划分机制启发了后续关于模型在分布外泛化与时序鲁棒性评测方面的标准制定，直接影响了诸如CyberBench等新一代网络安全NLP基准的涌现。此外，也有工作利用其多语言文本特征，研究了非英语黑客社区中的威胁情报挖掘方法，进一步丰富了多语言态势感知的技术路线。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集