cyb006-sample
收藏CYB006 — Synthetic Login Activity Dataset (Sample)
数据集概述
CYB006 是一个企业登录活动合成数据集,由 XpertSystems.ai 合成数据平台生成。当前页面提供的是免费预览样本,约占完整数据集的 ~1.3%,但保持相同的架构、威胁行为者层级分布和统计特征。
- 许可证: CC-BY-NC-4.0(仅限非商业研究和评估)
- 任务类别: 表格分类、时间序列预测
- 标签: 网络安全、身份安全、账户接管、MFA绕过、UEBA、零信任、APT、合成数据、横向移动、黄金票据
- 数据规模: 1K < n < 10K
- 版本: 1.0.0
文件组成
| 文件 | 样本行数 | 完整数据集行数 | 描述 |
|---|---|---|---|
identity_topology.csv |
~150 | ~3,200 | 身份域注册表 |
user_risk_summary.csv |
~200 | ~6,500 | 每用户风险聚合 |
login_sessions.csv |
~5,000 | ~377,000 | 每会话登录记录(主文件) |
auth_events.csv |
~31,900 | ~750,000 | 离散认证事件日志 |
数据模拟特性
CYB006 使用 6阶段会话状态机 模拟企业登录活动,涵盖多种身份基础设施:
- 4种威胁行为者能力层级: script_kiddie、opportunistic、advanced_persistent_threat (APT)、nation_state — 每种具有独特的凭据攻击模式、MFA绕过倾向、横向跳转分布和黄金票据/Pass-the-Hash滥用率
- 8种身份域类型: on-premises AD、Azure AD、Okta、hybrid_joined、SAML federated、zero_trust_ztna、PAW、SaaS应用门户 — 各有不同的检测强度和弹性评分
- MFA挑战方法: disabled、SMS、TOTP、推送通知、抗钓鱼FIDO2 — 每种具有校准的绕过倾向
- 6个会话生命周期阶段: pre_auth_probe、credential_submission、mfa_challenge、session_active、lateral_traversal、session_termination
- 地理速度建模: 使用Haversine距离和每用户预期地理基线检测不可能旅行
- UEBA评分: 校准的假阳性率
- 条件访问策略执行建模: ZTNA阻断强度可调
架构亮点
login_sessions.csv(主文件)关键字段
| 列名 | 类型 | 描述 |
|---|---|---|
| session_id | string | 唯一会话标识符 |
| user_id | string | 用户标识符(关联user_risk_summary) |
| login_outcome | string | success / failed / mfa_required / blocked |
| geo_country_code | string | ISO 3166国家代码 |
| device_trust_level | string | unknown / known / managed / compliant |
| authentication_method | string | password / sso / certificate / api_key |
| mfa_challenge_type | string | disabled / sms / totp / push / fido2 |
| user_risk_tier | string | low / medium / high / critical |
| threat_actor_capability_tier | string | script_kiddie / opportunistic / apt / nation_state |
| impossible_travel_flag | int | 不可能旅行检测标志 |
| geo_anomaly_score | float | 地理异常评分 (0–1) |
| velocity_anomaly_score | float | 登录速度异常评分 (0–1) |
user_risk_summary.csv关键字段
| 列名 | 类型 | 描述 |
|---|---|---|
| user_risk_tier | string | 风险层级分类目标 |
| failed_logins | int | 失败登录次数 |
| mfa_failures | int | MFA挑战失败次数 |
| lateral_hop_count | int | 横向移动跳转总数 |
| privilege_escalations | int | 权限提升次数 |
| ueba_alert_count | int | UEBA告警次数 |
| threat_actor_flag | int | 威胁行为者标志 |
| account_takeover_flag | int | 账户接管检测标志 |
| overall_identity_risk_score | float | 综合身份风险评分 (0–1) |
预训练基线分类器
已有基于该样本训练的基线分类器可用:xpertsystems/cyb006-baseline-classifier
| 组件 | 详情 |
|---|---|
| 主要任务 | 3类 user_risk_tier 分类(内部威胁评分) |
| 模型 | XGBoost + PyTorch MLP |
| 特征 | 34个每用户特征(聚合+非泄漏会话聚合+工程特征) |
| 分割 | 按 user_risk_tier 分层 — 用户级任务,n=200 |
| 验证 | 单种子 + 多种子聚合(10个种子) |
| 关键指标 | XGBoost: 准确率 0.700 ± 0.082, macro ROC-AUC 0.812 ± 0.048 |
重要诊断发现:样本中的威胁行为者与合法会话在至少6个特征组(速度、时间戳、凭据尝试次数、登录结果、地理国家、设备信任)上具有不重叠的异常评分分布,因此简单的XGBoost在威胁行为者二分类上可达100%测试准确率,但这不能反映真实世界的检测难度。
校准基准测试
完整产品包含 12项基准验证测试,源自权威身份安全来源:
| 测试 | 描述 | 样本验证结果 |
|---|---|---|
| T01 | 凭据攻击速度 | ✓ PASS |
| T02 | 按层级账户接管率 | ✓ PASS |
| T03 | MFA绕过率(FIDO2) | ✓ PASS |
| T04 | 不可能旅行率 | ✓ PASS |
| T05 | 按层级横向移动深度 | ✓ PASS |
| T06 | 权限提升率 | ✓ PASS |
| T07 | MFA疲劳爆发检测 | ✓ PASS |
| T08 | UEBA假阳性率 | ✓ PASS |
| T09 | 黄金票据/PtH检测缺口 | ✓ PASS |
| T10 | 会话时长异常分离 | ✓ PASS |
| T11 | 条件访问阻断率(ZTNA) | ✓ PASS |
| T12 | 杀伤链完成率 | ✓ PASS |
建议使用场景
- 内部威胁评分模型训练
- 账户接管(ATO)检测模型开发(训练前需查看基线模型卡的泄漏诊断)
- 威胁行为者层级分类 — 4类,具有现实类别不平衡(训练前需查看泄漏诊断)
- 不可能旅行检测 — 地理-速度特征工程
- MFA绕过检测 — 区分FIDO2异常与推送疲劳
- 横向移动检测 — 会话图遍历模式
- 黄金票据/Pass-the-Hash检测基准测试
- UEBA精度/召回调优 — 校准的假阳性基线
- 条件访问策略有效性模拟
- 零信任姿态验证 — ZTNA阻断率分析
数据加载示例
python import pandas as pd
sessions = pd.read_csv("login_sessions.csv") users = pd.read_csv("user_risk_summary.csv") events = pd.read_csv("auth_events.csv") domains = pd.read_csv("identity_topology.csv")
将会话数据与用户级风险标签连接
enriched = sessions.merge(users, on="user_id", how="left", suffixes=("", "_user"))
威胁行为者层级分类目标(4类)— 需查看泄漏诊断
y_tier = sessions["threat_actor_capability_tier"]
二分类账户接管检测目标
y_ato = users["account_takeover_flag"]
二分类不可能旅行目标
y_it = sessions["impossible_travel_flag"]
完整产品信息
完整 CYB006 数据集包含所有四个文件约 110万行,以及12项来自权威身份安全来源的校准基准验证测试。联系 XpertSystems.ai 获取商业许可。
联系: pradeep@xpertsystems.ai
网站: https://xpertsystems.ai
数据集引用
bibtex @dataset{xpertsystems_cyb006_sample_2026, title = {CYB006: Synthetic Login Activity Dataset (Sample)}, author = {XpertSystems.ai}, year = {2026}, url = {https://huggingface.co/datasets/xpertsystems/cyb006-sample} }
生成详情
- 生成器版本:1.0.0
- 随机种子:42
- 生成时间:2026-05-16 14:13:20 UTC
- 会话模型:6阶段登录生命周期状态机
- 基准测试:12/12 通过




