five

Hacker0x01/hackerone_disclosed_reports

收藏
Hugging Face2024-05-17 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Hacker0x01/hackerone_disclosed_reports
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为HackerOne公开报告数据集,包含了来自HackerOne平台的所有公开报告。HackerOne是一个领先的漏洞协调和漏洞赏金平台。每个报告都包含了关于发现的安全漏洞的详细信息,如描述、重现步骤和修复措施。数据集支持的任务包括安全研究、工具开发、教育培训和基准测试。数据集主要使用英语,并遵循HackerOne的服务条款。

该数据集名为HackerOne公开报告数据集,包含了来自HackerOne平台的所有公开报告。HackerOne是一个领先的漏洞协调和漏洞赏金平台。每个报告都包含了关于发现的安全漏洞的详细信息,如描述、重现步骤和修复措施。数据集支持的任务包括安全研究、工具开发、教育培训和基准测试。数据集主要使用英语,并遵循HackerOne的服务条款。
提供机构:
Hacker0x01
原始信息汇总

数据集概述

数据集名称

HackerOne Disclosed Reports Dataset

数据集内容

该数据集包含HackerOne平台上的所有披露报告,详细记录了发现的安全漏洞信息,包括描述、重现步骤和修复措施。

数据集特征

基本特征

  • id: 整数类型
  • title: 字符串类型
  • created_at: 字符串类型
  • substate: 字符串类型
  • vulnerability_information: 字符串类型
  • has_bounty?: 布尔类型
  • visibility: 字符串类型
  • disclosed_at: 字符串类型
  • original_report_id: 整数类型
  • vote_count: 整数类型

报告者信息

  • reporter: 结构体类型,包含以下字段:
    • cleared: 布尔类型
    • disabled: 布尔类型
    • hacker_mediation: 布尔类型
    • hackerone_triager: 布尔类型
    • is_me?: 布尔类型
    • profile_picture_urls: 结构体类型,包含以下字段:
      • small: 字符串类型
    • url: 字符串类型
    • username: 字符串类型
    • verified: 布尔类型

团队信息

  • team: 结构体类型,包含以下字段:
    • awards_miles: 布尔类型
    • default_currency: 字符串类型
    • handle: 字符串类型
    • id: 整数类型
    • offers_bounties: 布尔类型
    • only_cleared_hackers: 布尔类型
    • pentest_feature_enabled?: 布尔类型
    • pentest_retesting_ends_at: 空值类型
    • permissions: 空值类型
    • profile: 结构体类型,包含以下字段:
      • about: 字符串类型
      • name: 字符串类型
      • twitter_handle: 字符串类型
      • website: 字符串类型
    • profile_picture_urls: 结构体类型,包含以下字段:
      • medium: 字符串类型
      • small: 字符串类型
    • state: 字符串类型
    • submission_state: 字符串类型
    • url: 字符串类型

弱点信息

  • weakness: 结构体类型,包含以下字段:
    • id: 整数类型
    • name: 字符串类型

结构化范围

  • structured_scope: 结构体类型,包含以下字段:
    • asset_identifier: 字符串类型
    • asset_type: 字符串类型
    • databaseId: 整数类型
    • max_severity: 字符串类型

数据集分割

  • train: 包含10094个样本,总大小为32397708.959740054字节
  • test: 包含1262个样本,总大小为4050516.020129973字节
  • validation: 包含1262个样本,总大小为4050516.020129973字节

数据集大小

  • 下载大小: 18702381字节
  • 数据集总大小: 40498741.0字节

使用许可

数据集遵循HackerOne的条款服务,使用时需确保遵守相关条款和条件。

搜集汇总
数据集介绍
main_image_url
构建方式
在网络安全领域,漏洞披露平台的数据对于理解安全威胁至关重要。HackerOne Disclosed Reports数据集通过系统性地收集HackerOne平台上公开披露的漏洞报告构建而成,涵盖了从报告创建到最终披露的全过程。数据来源于平台的实际运营记录,包括报告的标题、创建时间、漏洞详情、报告者信息、团队资料以及赏金状态等结构化字段。构建过程中,数据被划分为训练集、测试集和验证集,确保其适用于机器学习模型的开发与评估,同时遵循平台的服务条款,保障数据的合法性与可靠性。
特点
该数据集以其全面性和结构化特点脱颖而出,在网络安全研究中具有显著价值。它包含超过一万条记录,每条记录均详细描述了漏洞的发现过程、技术细节及修复建议,并附带了报告者和团队的多维度元数据,如身份验证状态、赏金提供情况等。数据集还标注了漏洞的弱点类型和资产范围,支持对安全趋势的深度分析。其多语言支持以英语为主,便于全球研究者的使用,而数据的分割设计则优化了模型训练与验证的效率,为安全工具的开发和学术探索提供了坚实基础。
使用方法
在安全研究和教育实践中,该数据集提供了丰富的应用场景。用户可通过加载数据集文件,直接访问训练、测试和验证分片,利用其结构化特征进行漏洞分类、趋势预测或自动化工具的开发。例如,安全研究人员可分析漏洞信息字段,识别常见攻击模式;教育者则能基于真实案例设计培训材料。使用时应遵守HackerOne的服务条款,确保数据用于合法目的,如学术研究或内部测试,避免商业滥用。数据集的标准化格式简化了集成流程,支持快速原型构建和基准测试。
背景与挑战
背景概述
在网络安全领域,漏洞披露与协调平台已成为连接安全研究人员与企业的重要桥梁。HackerOne作为该领域的先驱,自2012年成立以来,通过其众包安全模式,汇集了全球白帽黑客的智慧,旨在系统性发现并修复软件中的安全缺陷。该数据集由Hacker0x01于2024年整理并发布,收录了平台上所有已公开的漏洞报告,共计10,094条记录,涵盖了漏洞详情、时间戳、报告者及受影响团队等结构化信息。其核心研究问题聚焦于如何利用大规模真实漏洞数据,推动自动化漏洞分析、趋势预测及安全工具研发,对提升网络安全防御体系的智能化水平具有深远影响。
当前挑战
该数据集致力于解决漏洞分类与风险评估的领域挑战,其核心在于从非结构化的漏洞描述中提取标准化特征,以支持精准的严重性分级与模式识别。构建过程中的挑战亦不容忽视:首先,数据来源涉及敏感的安全信息,需在披露合规性与数据完整性之间取得平衡;其次,报告文本的多样性与技术术语的复杂性,增加了自动化处理的难度;此外,漏洞类型的动态演变要求数据集持续更新,以反映新兴威胁态势。这些因素共同构成了数据集在可用性与时效性方面的双重考验。
常用场景
经典使用场景
在网络安全研究领域,HackerOne Disclosed Reports数据集为分析漏洞披露趋势提供了宝贵资源。该数据集收录了来自全球领先漏洞协调平台的公开报告,涵盖漏洞描述、复现步骤及修复措施等详细信息。研究人员可借此深入探究漏洞类型分布、攻击向量演变及披露时间模式,从而揭示网络威胁的宏观动态与微观特征。
解决学术问题
该数据集有效解决了安全学术界对真实世界漏洞数据稀缺的困境。通过结构化记录漏洞弱点的技术细节与披露流程,学者能够实证检验漏洞生命周期理论,量化评估漏洞修复效率,并构建基于实际数据的威胁建模框架。这些工作显著提升了安全研究的实证基础,推动了漏洞管理从经验导向向数据驱动的范式转变。
衍生相关工作
基于该数据集衍生的经典研究包括漏洞自动分类系统的构建、跨平台漏洞模式挖掘框架的开发,以及漏洞披露生态系统的社会学分析。这些工作不仅催生了如VulBERT等预训练模型,还促进了漏洞知识图谱的构建,为智能安全运维体系提供了核心数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作