cyb006-sample

Hugging Face2026-05-19 更新2026-05-20 收录

下载链接：

https://huggingface.co/datasets/xpertsystems/cyb006-sample

下载链接

链接失效反馈

官方服务：

资源简介：

CYB006合成登录活动数据集（样本版）是一个用于网络安全和身份安全研究的合成数据集，由XpertSystems.ai生成。该数据集模拟了企业环境中的登录活动，采用六阶段会话状态机模型，涵盖多样化的身份基础设施。数据集包含四个主要文件：login_sessions.csv（登录会话记录，约5,000行）、auth_events.csv（认证事件日志，约31,900行）、user_risk_summary.csv（用户风险汇总，约200行）和identity_topology.csv（身份域拓扑，约150行）。数据内容包含4种威胁行为者能力层级（从脚本小子到国家级）、8种身份域类型（如本地AD、Azure AD、Okta等）、多种MFA挑战方法（包括FIDO2、推送通知等）以及6个会话生命周期阶段。数据集集成了地理速度建模（包含不可能旅行检测）、用户实体行为分析（UEBA）评分和条件访问策略执行建模。该数据集针对12个基准验证测试进行了校准，这些测试源自权威的网络安全报告和标准。主要适用任务包括内部威胁评分、账户接管检测、威胁行为者层级分类、不可能旅行检测、MFA绕过检测、横向移动检测、Golden Ticket/Pass-the-Hash检测基准测试、UEBA精度/召回率调优以及零信任态势验证。该样本版是完整数据集的预览，约占完整数据的1.3%，采用CC-BY-NC-4.0许可证，仅供非商业研究和评估使用。

The CYB006 Synthetic Login Activity Dataset (Sample Edition) is a synthetic dataset for cybersecurity and identity security research, generated by XpertSystems.ai. It simulates login activities in enterprise environments using a six-stage session state machine model and covers diverse identity infrastructures. The dataset includes four main files: login_sessions.csv (login session records, approximately 5,000 rows), auth_events.csv (authentication event logs, approximately 31,900 rows), user_risk_summary.csv (user risk summaries, approximately 200 rows), and identity_topology.csv (identity domain topology, approximately 150 rows). The data content encompasses 4 threat actor capability levels (from script kiddies to nation-state), 8 identity domain types (such as local AD, Azure AD, Okta, etc.), multiple MFA challenge methods (including FIDO2, push notifications, etc.), and 6 session lifecycle stages. The dataset integrates geographic velocity modeling (including impossible travel detection), User and Entity Behavior Analytics (UEBA) scoring, and conditional access policy enforcement modeling. It has been calibrated for 12 benchmark validation tests derived from authoritative cybersecurity reports and standards. Primary applicable tasks include insider threat scoring, account takeover detection, threat actor level classification, impossible travel detection, MFA bypass detection, lateral movement detection, Golden Ticket/Pass-the-Hash detection benchmarking, UEBA precision/recall tuning, and zero-trust posture validation. This sample edition is a preview of the full dataset, representing approximately 1.3% of the complete data, and is licensed under CC-BY-NC-4.0 for non-commercial research and evaluation purposes only.

创建时间：

2026-05-16

原始信息汇总

CYB006 — Synthetic Login Activity Dataset (Sample)

数据集概述

CYB006 是一个企业登录活动合成数据集，由 XpertSystems.ai 合成数据平台生成。当前页面提供的是免费预览样本，约占完整数据集的 ~1.3%，但保持相同的架构、威胁行为者层级分布和统计特征。

许可证: CC-BY-NC-4.0（仅限非商业研究和评估）
任务类别: 表格分类、时间序列预测
标签: 网络安全、身份安全、账户接管、MFA绕过、UEBA、零信任、APT、合成数据、横向移动、黄金票据
数据规模: 1K < n < 10K
版本: 1.0.0

文件组成

文件	样本行数	完整数据集行数	描述
`identity_topology.csv`	~150	~3,200	身份域注册表
`user_risk_summary.csv`	~200	~6,500	每用户风险聚合
`login_sessions.csv`	~5,000	~377,000	每会话登录记录（主文件）
`auth_events.csv`	~31,900	~750,000	离散认证事件日志

数据模拟特性

CYB006 使用 6阶段会话状态机 模拟企业登录活动，涵盖多种身份基础设施：

4种威胁行为者能力层级: script_kiddie、opportunistic、advanced_persistent_threat (APT)、nation_state — 每种具有独特的凭据攻击模式、MFA绕过倾向、横向跳转分布和黄金票据/Pass-the-Hash滥用率
8种身份域类型: on-premises AD、Azure AD、Okta、hybrid_joined、SAML federated、zero_trust_ztna、PAW、SaaS应用门户 — 各有不同的检测强度和弹性评分
MFA挑战方法: disabled、SMS、TOTP、推送通知、抗钓鱼FIDO2 — 每种具有校准的绕过倾向
6个会话生命周期阶段: pre_auth_probe、credential_submission、mfa_challenge、session_active、lateral_traversal、session_termination
地理速度建模: 使用Haversine距离和每用户预期地理基线检测不可能旅行
UEBA评分: 校准的假阳性率
条件访问策略执行建模: ZTNA阻断强度可调

架构亮点

`login_sessions.csv`（主文件）关键字段

列名	类型	描述
session_id	string	唯一会话标识符
user_id	string	用户标识符（关联user_risk_summary）
login_outcome	string	success / failed / mfa_required / blocked
geo_country_code	string	ISO 3166国家代码
device_trust_level	string	unknown / known / managed / compliant
authentication_method	string	password / sso / certificate / api_key
mfa_challenge_type	string	disabled / sms / totp / push / fido2
user_risk_tier	string	low / medium / high / critical
threat_actor_capability_tier	string	script_kiddie / opportunistic / apt / nation_state
impossible_travel_flag	int	不可能旅行检测标志
geo_anomaly_score	float	地理异常评分 (0–1)
velocity_anomaly_score	float	登录速度异常评分 (0–1)

`user_risk_summary.csv`关键字段

列名	类型	描述
user_risk_tier	string	风险层级分类目标
failed_logins	int	失败登录次数
mfa_failures	int	MFA挑战失败次数
lateral_hop_count	int	横向移动跳转总数
privilege_escalations	int	权限提升次数
ueba_alert_count	int	UEBA告警次数
threat_actor_flag	int	威胁行为者标志
account_takeover_flag	int	账户接管检测标志
overall_identity_risk_score	float	综合身份风险评分 (0–1)

预训练基线分类器

已有基于该样本训练的基线分类器可用：xpertsystems/cyb006-baseline-classifier

组件	详情
主要任务	3类 user_risk_tier 分类（内部威胁评分）
模型	XGBoost + PyTorch MLP
特征	34个每用户特征（聚合+非泄漏会话聚合+工程特征）
分割	按 user_risk_tier 分层 — 用户级任务，n=200
验证	单种子 + 多种子聚合（10个种子）
关键指标	XGBoost: 准确率 0.700 ± 0.082, macro ROC-AUC 0.812 ± 0.048

重要诊断发现：样本中的威胁行为者与合法会话在至少6个特征组（速度、时间戳、凭据尝试次数、登录结果、地理国家、设备信任）上具有不重叠的异常评分分布，因此简单的XGBoost在威胁行为者二分类上可达100%测试准确率，但这不能反映真实世界的检测难度。

校准基准测试

完整产品包含 12项基准验证测试，源自权威身份安全来源：

测试	描述	样本验证结果
T01	凭据攻击速度	✓ PASS
T02	按层级账户接管率	✓ PASS
T03	MFA绕过率（FIDO2）	✓ PASS
T04	不可能旅行率	✓ PASS
T05	按层级横向移动深度	✓ PASS
T06	权限提升率	✓ PASS
T07	MFA疲劳爆发检测	✓ PASS
T08	UEBA假阳性率	✓ PASS
T09	黄金票据/PtH检测缺口	✓ PASS
T10	会话时长异常分离	✓ PASS
T11	条件访问阻断率（ZTNA）	✓ PASS
T12	杀伤链完成率	✓ PASS

建议使用场景

内部威胁评分模型训练
账户接管(ATO)检测模型开发（训练前需查看基线模型卡的泄漏诊断）
威胁行为者层级分类 — 4类，具有现实类别不平衡（训练前需查看泄漏诊断）
不可能旅行检测 — 地理-速度特征工程
MFA绕过检测 — 区分FIDO2异常与推送疲劳
横向移动检测 — 会话图遍历模式
黄金票据/Pass-the-Hash检测基准测试
UEBA精度/召回调优 — 校准的假阳性基线
条件访问策略有效性模拟
零信任姿态验证 — ZTNA阻断率分析

数据加载示例

python import pandas as pd

sessions = pd.read_csv("login_sessions.csv") users = pd.read_csv("user_risk_summary.csv") events = pd.read_csv("auth_events.csv") domains = pd.read_csv("identity_topology.csv")

将会话数据与用户级风险标签连接

enriched = sessions.merge(users, on="user_id", how="left", suffixes=("", "_user"))

威胁行为者层级分类目标（4类）— 需查看泄漏诊断

y_tier = sessions["threat_actor_capability_tier"]

二分类账户接管检测目标

y_ato = users["account_takeover_flag"]

二分类不可能旅行目标

y_it = sessions["impossible_travel_flag"]

完整产品信息

完整 CYB006 数据集包含所有四个文件约 110万行，以及12项来自权威身份安全来源的校准基准验证测试。联系 XpertSystems.ai 获取商业许可。

联系: pradeep@xpertsystems.ai
网站: https://xpertsystems.ai

数据集引用

bibtex @dataset{xpertsystems_cyb006_sample_2026, title = {CYB006: Synthetic Login Activity Dataset (Sample)}, author = {XpertSystems.ai}, year = {2026}, url = {https://huggingface.co/datasets/xpertsystems/cyb006-sample} }

生成详情

生成器版本：1.0.0
随机种子：42
生成时间：2026-05-16 14:13:20 UTC
会话模型：6阶段登录生命周期状态机
基准测试：12/12 通过

搜集汇总

数据集介绍

构建方式

CYB006数据集由XpertSystems.ai合成数据平台生成，通过模拟企业登录活动作为六阶段会话状态机，覆盖多样化的身份基础设施。其构建过程整合了四种威胁行为者能力层级（脚本小子、机会主义、高级持续性威胁、国家级）的凭证攻击模式、多因素认证绕过倾向、横向移动分布及黄金票据与哈希传递滥用率。数据集还建模了八种身份域类型、五种多因素认证挑战方法、六阶段会话生命周期、地理速度异常检测（基于Haversine距离）以及UEBA评分与条件访问策略执行，最终通过12项基准验证测试确保统计指纹和威胁层级分布的逼真度。

特点

该数据集以约1.3%的样本量提供完整产品的核心特征，包括身份拓扑、用户风险聚合、登录会话和认证事件日志四类文件。其独特之处在于引入了可校准的威胁层级分布与专家驱动的基准测试体系，涵盖凭证攻击速度、账户接管率、多因素认证绕过率、不可能旅行率、横向移动深度等12项验证指标。数据集中包含34个用户级特征，支持用户风险层级分类、威胁行为者检测和账户接管识别等多任务场景，且已基于XGBoost与PyTorch MLP模型建立了基线分类器，在用户风险层级分类上达到ROC-AUC 0.812±0.048的性能。

使用方法

使用方法上，数据可通过Pandas库轻松加载，将登录会话、用户风险摘要、认证事件和身份拓扑四张表按用户ID进行关联分析。预训练基线模型可直接用于用户风险层级分类任务，同时数据集的建议应用包括内部威胁评分、账户接管检测、不可能旅行识别、多因素认证绕过分析、横向移动发现、UEBA调优以及零信任策略验证。对于计划进行威胁行为者识别的研究者，需特别注意数据集中存在结构泄漏问题，建议参阅模型卡片中的泄漏诊断部分以避免不切实际的性能高估。商业用途需联系XpertSystems.ai获取完整许可证。

背景与挑战

背景概述

随着网络攻击手段日趋复杂，身份安全已成为现代企业安全架构的核心防线。在此背景下，XpertSystems.ai于2026年发布了CYB006合成登录活动数据集（样本版），旨在为网络安全领域的研究者与从业者提供一套高保真、多维度的身份安全模拟数据。该数据集由XpertSystems.ai的合成数据平台生成，聚焦于企业内部登录活动中的威胁检测问题，涵盖从脚本小子到国家级APT组织的四个攻击者能力层级、八种身份域类型以及六阶段会话生命周期。通过精细模拟凭证攻击、MFA绕过、横向移动和黄金票据攻击等真实场景，该数据集为身份威胁检测、零信任策略验证及用户实体行为分析（UEBA）等研究提供了标准化基准。其影响力体现在为学术界与工业界架设了一座从合成数据到实战部署的桥梁，推动了身份安全领域的可复现研究进展。

当前挑战

该数据集所解决的核心领域挑战在于企业身份安全中账户接管（ATO）与内部威胁的精准检测。传统规则引擎难以应对多阶段、多形态的攻击链，而真实场景下的标记数据稀缺且涉及隐私合规问题，导致监督学习模型训练困难。此外，构建过程中面临多重技术挑战：一是需在合成数据中嵌入12项经权威来源（如微软数字防御报告、Verizon DBIR、MITRE ATT&CK）校准的基准测试指标，确保威胁行为统计真实性；二是必须避免数据泄露问题，如样本中威胁actor与合法用户的异常分数分布完全不重叠，导致朴素XGBoost模型在威胁actor二元检测上获得100%的虚假准确率；三是需要在小样本条件下（样本仅含全量数据的1.3%）保持类别分布与统计指纹的一致性，为大规模模型部署提供可靠的预研基础。

常用场景

经典使用场景

在网络安全与身份认证研究领域，CYB006数据集为模拟企业内部登录行为提供了高度结构化的合成数据资源。该数据集最经典的使用场景是构建和评估用户风险等级分类模型，通过整合登录会话、身份拓扑及身份验证事件等多维信息，研究者能够训练出区分低、中、高、关键四类用户风险等级的机器学习模型。基于此数据集，可开发以XGBoost和PyTorch MLP为代表的基线分类器，实现对内部威胁评分的精准预测。

衍生相关工作

基于CYB006数据集，XpertSystems.ai发布了配套的基线分类器工作，不仅提供用户风险等级分类的完整训练流程，还披露了威胁行为者检测任务中因特征分布非重叠而导致的数据泄露诊断分析，为后续研究者规避相似陷阱提供了警示。该工作衍生了面向特征工程、分层采样及多种子评估的技术指南，推动了合成数据在身份安全ML任务中的标准化应用。未来可预期的工作包括基于该数据集构建更细粒度的横向移动图神经网络模型以及APT行为序列预测方法。

数据集最近研究