five

cyb006-sample

收藏
Hugging Face2026-05-19 更新2026-05-20 收录
下载链接:
https://huggingface.co/datasets/xpertsystems/cyb006-sample
下载链接
链接失效反馈
官方服务:
资源简介:
CYB006合成登录活动数据集(样本版)是一个用于网络安全和身份安全研究的合成数据集,由XpertSystems.ai生成。该数据集模拟了企业环境中的登录活动,采用六阶段会话状态机模型,涵盖多样化的身份基础设施。数据集包含四个主要文件:login_sessions.csv(登录会话记录,约5,000行)、auth_events.csv(认证事件日志,约31,900行)、user_risk_summary.csv(用户风险汇总,约200行)和identity_topology.csv(身份域拓扑,约150行)。数据内容包含4种威胁行为者能力层级(从脚本小子到国家级)、8种身份域类型(如本地AD、Azure AD、Okta等)、多种MFA挑战方法(包括FIDO2、推送通知等)以及6个会话生命周期阶段。数据集集成了地理速度建模(包含不可能旅行检测)、用户实体行为分析(UEBA)评分和条件访问策略执行建模。该数据集针对12个基准验证测试进行了校准,这些测试源自权威的网络安全报告和标准。主要适用任务包括内部威胁评分、账户接管检测、威胁行为者层级分类、不可能旅行检测、MFA绕过检测、横向移动检测、Golden Ticket/Pass-the-Hash检测基准测试、UEBA精度/召回率调优以及零信任态势验证。该样本版是完整数据集的预览,约占完整数据的1.3%,采用CC-BY-NC-4.0许可证,仅供非商业研究和评估使用。

The CYB006 Synthetic Login Activity Dataset (Sample Edition) is a synthetic dataset for cybersecurity and identity security research, generated by XpertSystems.ai. It simulates login activities in enterprise environments using a six-stage session state machine model and covers diverse identity infrastructures. The dataset includes four main files: login_sessions.csv (login session records, approximately 5,000 rows), auth_events.csv (authentication event logs, approximately 31,900 rows), user_risk_summary.csv (user risk summaries, approximately 200 rows), and identity_topology.csv (identity domain topology, approximately 150 rows). The data content encompasses 4 threat actor capability levels (from script kiddies to nation-state), 8 identity domain types (such as local AD, Azure AD, Okta, etc.), multiple MFA challenge methods (including FIDO2, push notifications, etc.), and 6 session lifecycle stages. The dataset integrates geographic velocity modeling (including impossible travel detection), User and Entity Behavior Analytics (UEBA) scoring, and conditional access policy enforcement modeling. It has been calibrated for 12 benchmark validation tests derived from authoritative cybersecurity reports and standards. Primary applicable tasks include insider threat scoring, account takeover detection, threat actor level classification, impossible travel detection, MFA bypass detection, lateral movement detection, Golden Ticket/Pass-the-Hash detection benchmarking, UEBA precision/recall tuning, and zero-trust posture validation. This sample edition is a preview of the full dataset, representing approximately 1.3% of the complete data, and is licensed under CC-BY-NC-4.0 for non-commercial research and evaluation purposes only.
创建时间:
2026-05-16
原始信息汇总

CYB006 — Synthetic Login Activity Dataset (Sample)

数据集概述

CYB006 是一个企业登录活动合成数据集,由 XpertSystems.ai 合成数据平台生成。当前页面提供的是免费预览样本,约占完整数据集的 ~1.3%,但保持相同的架构、威胁行为者层级分布和统计特征。

  • 许可证: CC-BY-NC-4.0(仅限非商业研究和评估)
  • 任务类别: 表格分类、时间序列预测
  • 标签: 网络安全、身份安全、账户接管、MFA绕过、UEBA、零信任、APT、合成数据、横向移动、黄金票据
  • 数据规模: 1K < n < 10K
  • 版本: 1.0.0

文件组成

文件 样本行数 完整数据集行数 描述
identity_topology.csv ~150 ~3,200 身份域注册表
user_risk_summary.csv ~200 ~6,500 每用户风险聚合
login_sessions.csv ~5,000 ~377,000 每会话登录记录(主文件)
auth_events.csv ~31,900 ~750,000 离散认证事件日志

数据模拟特性

CYB006 使用 6阶段会话状态机 模拟企业登录活动,涵盖多种身份基础设施:

  • 4种威胁行为者能力层级: script_kiddie、opportunistic、advanced_persistent_threat (APT)、nation_state — 每种具有独特的凭据攻击模式、MFA绕过倾向、横向跳转分布和黄金票据/Pass-the-Hash滥用率
  • 8种身份域类型: on-premises AD、Azure AD、Okta、hybrid_joined、SAML federated、zero_trust_ztna、PAW、SaaS应用门户 — 各有不同的检测强度和弹性评分
  • MFA挑战方法: disabled、SMS、TOTP、推送通知、抗钓鱼FIDO2 — 每种具有校准的绕过倾向
  • 6个会话生命周期阶段: pre_auth_probe、credential_submission、mfa_challenge、session_active、lateral_traversal、session_termination
  • 地理速度建模: 使用Haversine距离和每用户预期地理基线检测不可能旅行
  • UEBA评分: 校准的假阳性率
  • 条件访问策略执行建模: ZTNA阻断强度可调

架构亮点

login_sessions.csv(主文件)关键字段

列名 类型 描述
session_id string 唯一会话标识符
user_id string 用户标识符(关联user_risk_summary)
login_outcome string success / failed / mfa_required / blocked
geo_country_code string ISO 3166国家代码
device_trust_level string unknown / known / managed / compliant
authentication_method string password / sso / certificate / api_key
mfa_challenge_type string disabled / sms / totp / push / fido2
user_risk_tier string low / medium / high / critical
threat_actor_capability_tier string script_kiddie / opportunistic / apt / nation_state
impossible_travel_flag int 不可能旅行检测标志
geo_anomaly_score float 地理异常评分 (0–1)
velocity_anomaly_score float 登录速度异常评分 (0–1)

user_risk_summary.csv关键字段

列名 类型 描述
user_risk_tier string 风险层级分类目标
failed_logins int 失败登录次数
mfa_failures int MFA挑战失败次数
lateral_hop_count int 横向移动跳转总数
privilege_escalations int 权限提升次数
ueba_alert_count int UEBA告警次数
threat_actor_flag int 威胁行为者标志
account_takeover_flag int 账户接管检测标志
overall_identity_risk_score float 综合身份风险评分 (0–1)

预训练基线分类器

已有基于该样本训练的基线分类器可用:xpertsystems/cyb006-baseline-classifier

组件 详情
主要任务 3类 user_risk_tier 分类(内部威胁评分)
模型 XGBoost + PyTorch MLP
特征 34个每用户特征(聚合+非泄漏会话聚合+工程特征)
分割 按 user_risk_tier 分层 — 用户级任务,n=200
验证 单种子 + 多种子聚合(10个种子)
关键指标 XGBoost: 准确率 0.700 ± 0.082, macro ROC-AUC 0.812 ± 0.048

重要诊断发现:样本中的威胁行为者与合法会话在至少6个特征组(速度、时间戳、凭据尝试次数、登录结果、地理国家、设备信任)上具有不重叠的异常评分分布,因此简单的XGBoost在威胁行为者二分类上可达100%测试准确率,但这不能反映真实世界的检测难度。

校准基准测试

完整产品包含 12项基准验证测试,源自权威身份安全来源:

测试 描述 样本验证结果
T01 凭据攻击速度 ✓ PASS
T02 按层级账户接管率 ✓ PASS
T03 MFA绕过率(FIDO2) ✓ PASS
T04 不可能旅行率 ✓ PASS
T05 按层级横向移动深度 ✓ PASS
T06 权限提升率 ✓ PASS
T07 MFA疲劳爆发检测 ✓ PASS
T08 UEBA假阳性率 ✓ PASS
T09 黄金票据/PtH检测缺口 ✓ PASS
T10 会话时长异常分离 ✓ PASS
T11 条件访问阻断率(ZTNA) ✓ PASS
T12 杀伤链完成率 ✓ PASS

建议使用场景

  • 内部威胁评分模型训练
  • 账户接管(ATO)检测模型开发(训练前需查看基线模型卡的泄漏诊断)
  • 威胁行为者层级分类 — 4类,具有现实类别不平衡(训练前需查看泄漏诊断)
  • 不可能旅行检测 — 地理-速度特征工程
  • MFA绕过检测 — 区分FIDO2异常与推送疲劳
  • 横向移动检测 — 会话图遍历模式
  • 黄金票据/Pass-the-Hash检测基准测试
  • UEBA精度/召回调优 — 校准的假阳性基线
  • 条件访问策略有效性模拟
  • 零信任姿态验证 — ZTNA阻断率分析

数据加载示例

python import pandas as pd

sessions = pd.read_csv("login_sessions.csv") users = pd.read_csv("user_risk_summary.csv") events = pd.read_csv("auth_events.csv") domains = pd.read_csv("identity_topology.csv")

将会话数据与用户级风险标签连接

enriched = sessions.merge(users, on="user_id", how="left", suffixes=("", "_user"))

威胁行为者层级分类目标(4类)— 需查看泄漏诊断

y_tier = sessions["threat_actor_capability_tier"]

二分类账户接管检测目标

y_ato = users["account_takeover_flag"]

二分类不可能旅行目标

y_it = sessions["impossible_travel_flag"]

完整产品信息

完整 CYB006 数据集包含所有四个文件约 110万行,以及12项来自权威身份安全来源的校准基准验证测试。联系 XpertSystems.ai 获取商业许可。

联系: pradeep@xpertsystems.ai
网站: https://xpertsystems.ai

数据集引用

bibtex @dataset{xpertsystems_cyb006_sample_2026, title = {CYB006: Synthetic Login Activity Dataset (Sample)}, author = {XpertSystems.ai}, year = {2026}, url = {https://huggingface.co/datasets/xpertsystems/cyb006-sample} }

生成详情

  • 生成器版本:1.0.0
  • 随机种子:42
  • 生成时间:2026-05-16 14:13:20 UTC
  • 会话模型:6阶段登录生命周期状态机
  • 基准测试:12/12 通过
搜集汇总
数据集介绍
main_image_url
构建方式
CYB006数据集由XpertSystems.ai合成数据平台生成,通过模拟企业登录活动作为六阶段会话状态机,覆盖多样化的身份基础设施。其构建过程整合了四种威胁行为者能力层级(脚本小子、机会主义、高级持续性威胁、国家级)的凭证攻击模式、多因素认证绕过倾向、横向移动分布及黄金票据与哈希传递滥用率。数据集还建模了八种身份域类型、五种多因素认证挑战方法、六阶段会话生命周期、地理速度异常检测(基于Haversine距离)以及UEBA评分与条件访问策略执行,最终通过12项基准验证测试确保统计指纹和威胁层级分布的逼真度。
特点
该数据集以约1.3%的样本量提供完整产品的核心特征,包括身份拓扑、用户风险聚合、登录会话和认证事件日志四类文件。其独特之处在于引入了可校准的威胁层级分布与专家驱动的基准测试体系,涵盖凭证攻击速度、账户接管率、多因素认证绕过率、不可能旅行率、横向移动深度等12项验证指标。数据集中包含34个用户级特征,支持用户风险层级分类、威胁行为者检测和账户接管识别等多任务场景,且已基于XGBoost与PyTorch MLP模型建立了基线分类器,在用户风险层级分类上达到ROC-AUC 0.812±0.048的性能。
使用方法
使用方法上,数据可通过Pandas库轻松加载,将登录会话、用户风险摘要、认证事件和身份拓扑四张表按用户ID进行关联分析。预训练基线模型可直接用于用户风险层级分类任务,同时数据集的建议应用包括内部威胁评分、账户接管检测、不可能旅行识别、多因素认证绕过分析、横向移动发现、UEBA调优以及零信任策略验证。对于计划进行威胁行为者识别的研究者,需特别注意数据集中存在结构泄漏问题,建议参阅模型卡片中的泄漏诊断部分以避免不切实际的性能高估。商业用途需联系XpertSystems.ai获取完整许可证。
背景与挑战
背景概述
随着网络攻击手段日趋复杂,身份安全已成为现代企业安全架构的核心防线。在此背景下,XpertSystems.ai于2026年发布了CYB006合成登录活动数据集(样本版),旨在为网络安全领域的研究者与从业者提供一套高保真、多维度的身份安全模拟数据。该数据集由XpertSystems.ai的合成数据平台生成,聚焦于企业内部登录活动中的威胁检测问题,涵盖从脚本小子到国家级APT组织的四个攻击者能力层级、八种身份域类型以及六阶段会话生命周期。通过精细模拟凭证攻击、MFA绕过、横向移动和黄金票据攻击等真实场景,该数据集为身份威胁检测、零信任策略验证及用户实体行为分析(UEBA)等研究提供了标准化基准。其影响力体现在为学术界与工业界架设了一座从合成数据到实战部署的桥梁,推动了身份安全领域的可复现研究进展。
当前挑战
该数据集所解决的核心领域挑战在于企业身份安全中账户接管(ATO)与内部威胁的精准检测。传统规则引擎难以应对多阶段、多形态的攻击链,而真实场景下的标记数据稀缺且涉及隐私合规问题,导致监督学习模型训练困难。此外,构建过程中面临多重技术挑战:一是需在合成数据中嵌入12项经权威来源(如微软数字防御报告、Verizon DBIR、MITRE ATT&CK)校准的基准测试指标,确保威胁行为统计真实性;二是必须避免数据泄露问题,如样本中威胁actor与合法用户的异常分数分布完全不重叠,导致朴素XGBoost模型在威胁actor二元检测上获得100%的虚假准确率;三是需要在小样本条件下(样本仅含全量数据的1.3%)保持类别分布与统计指纹的一致性,为大规模模型部署提供可靠的预研基础。
常用场景
经典使用场景
在网络安全与身份认证研究领域,CYB006数据集为模拟企业内部登录行为提供了高度结构化的合成数据资源。该数据集最经典的使用场景是构建和评估用户风险等级分类模型,通过整合登录会话、身份拓扑及身份验证事件等多维信息,研究者能够训练出区分低、中、高、关键四类用户风险等级的机器学习模型。基于此数据集,可开发以XGBoost和PyTorch MLP为代表的基线分类器,实现对内部威胁评分的精准预测。
衍生相关工作
基于CYB006数据集,XpertSystems.ai发布了配套的基线分类器工作,不仅提供用户风险等级分类的完整训练流程,还披露了威胁行为者检测任务中因特征分布非重叠而导致的数据泄露诊断分析,为后续研究者规避相似陷阱提供了警示。该工作衍生了面向特征工程、分层采样及多种子评估的技术指南,推动了合成数据在身份安全ML任务中的标准化应用。未来可预期的工作包括基于该数据集构建更细粒度的横向移动图神经网络模型以及APT行为序列预测方法。
数据集最近研究
最新研究方向
在身份安全与零信任架构加速落地的行业背景下,CYB006合成登录活动数据集聚焦于模拟企业级身份基础设施中的多阶段攻击链,为前沿的账户接管(ATO)、多因素认证绕过及横向移动检测研究提供了高保真的合成数据支撑。该数据集通过刻画从脚本小子到国家级威胁行为体的四层级攻击能力分布,并融入黄金票据、哈希传递等高级持续性威胁战术,推动了用户风险分级与异常行为分析模型的鲁棒性评估。此外,其内置的UEBA评分校准与条件访问策略建模功能,为验证零信任环境下的ZTNA阻断率与杀链完成率开辟了新的基准测试路径,显著提升了威胁检测模型在真实部署场景中的泛化能力与可解释性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作