five

Defender XDR Advanced Hunting — Complete Schema Dataset

收藏
github2026-05-06 更新2026-05-07 收录
下载链接:
https://github.com/ml58158/defender-xdr-advanced-hunting
下载链接
链接失效反馈
官方服务:
资源简介:
一个针对Microsoft Defender XDR高级狩猎的完整模式数据集,包括完整的`ActionType`枚举,这些内容在微软的公开文档中被省略。该数据集通过从内部API提取完整的模式(字段、ActionTypes、示例查询和保留元数据)来解决公开文档中缺少`ActionType`值的问题。

A comprehensive schema dataset for Microsoft Defender XDR Advanced Hunting, which includes the complete `ActionType` enumeration omitted from Microsoft's public documentation. This dataset resolves the issue of missing `ActionType` values in public documentation by extracting full schemas (including fields, ActionTypes, sample queries, and retained metadata) from internal APIs.
创建时间:
2026-05-06
原始信息汇总

好的,这是根据您提供的数据集详情页面README文件内容总结出的数据集概述。

Defender XDR Advanced Hunting — 完整架构数据集 概述

该数据集旨在解决Microsoft Defender XDR高级搜寻(Advanced Hunting)功能中,ActionType枚举值缺失的问题。微软官方文档未提供机器可读的ActionType完整列表,导致查询编写困难、AI助手产生幻觉。本项目通过调用门户内部API,提取了完整的表架构信息。

核心问题与解决方案

  • 问题:微软官方的高级搜寻文档虽列出了各表的列和数据类型,但关键的ActionType列仅建议“查看门户内架构参考”,其具体值(如ProcessCreatedCreateRemoteThreadApiCall等)仅存在于Defender XDR门户UI中,缺乏公开的机器可读参考。
  • 解决方案:本项目从驱动门户架构面板的内部API中提取了完整架构(字段、ActionTypes、示例查询、保留期元数据)。

数据来源

项目数据主要来源于两个渠道:

  1. 内部 huntingService API(主要来源):Defender XDR门户通过未公开的内部端点 GET https://security.microsoft.com/apiproxy/mtp/huntingService/documentation/TableDocumentation/{TableName} 加载架构文档。该API返回的JSON负载包含每个表的:
    • Fields[]:列名、类型和描述(比公开文档更丰富)。
    • ActionTypes[]:所有有效的ActionType值及其描述的完整枚举。
    • Queries[]:微软提供的示例KQL查询。
    • HotDays / ColdDays:数据保留期。
    • TableTypeTags[]:表分类与标签。
  2. 微软公开文档(补充):来自GitHub上 MicrosoftDocs/defender-docs 仓库的原始Markdown表格,提供公开的列/类型/描述文档,但不包含ActionTypes

数据集内容与结构

  • 覆盖范围:包含61张表,涵盖设备、标识、电子邮件、云应用、威胁与漏洞管理、警报与事件等多个类别。
  • 仓库结构
    • schema/raw-md/:61个来自微软文档的原始Markdown文件。
    • schema/parsed-json/:61个解析后的JSON架构文件。
    • DefenderSchema/:运行提取脚本后生成的输出目录,包含:
      • _AllTables.json:所有表的合并JSON架构。
      • DefenderXDR_SchemaReference.md:完整的人类可读参考。
      • ActionTypes_Reference.md:仅包含ActionTypes的快速参考。
      • {TableName}.json:各表的单独JSON文件(共60个)。
  • 工具脚本
    • Get-DefenderSchema.ps1:门户API架构提取器,用于从内部API抓取完整架构数据。
    • parse-schema.js:Node.js解析器,用于将原始Markdown转换为JSON。
    • updater/sync-schema.ps1:从GitHub拉取最新原始Markdown的同步脚本。

提取与使用方式

  • 前提条件:需要在 security.microsoft.com 上拥有有效的、具有高级搜寻访问权限的会话。提取脚本需要完整的浏览器Cookie字符串进行身份验证,该字符串有效期为30-60分钟。
  • AI技能集成:该仓库被设计为Claude的自定义技能,通过 SKILL.md 文件定义行为规则:不允许生成虚构字段,所有查询必须根据解析后的JSON架构进行验证。
搜集汇总
数据集介绍
main_image_url
构建方式
在网络安全威胁日趋复杂的背景下,微软Defender XDR的高级搜寻(Advanced Hunting)功能为安全分析师提供了强大的威胁狩猎能力,但其核心字段ActionType的完整枚举值却长期隐匿于门户界面内部,缺乏公开的机器可读参考。为填补这一空白,本数据集通过逆向分析Defender XDR门户中未公开的内部API接口(huntingService/documentation/TableDocumentation/{TableName}),利用PowerShell脚本(Get-DefenderSchema.ps1)自动提取并聚合所有60张表的完整Schema信息,包括Field、ActionType、示例查询及保留周期等元数据,同时辅以从微软官方GitHub仓库同步的Markdown文档进行补充解析,最终生成结构化JSON格式的完整数据集。
使用方法
使用本数据集前,需确保拥有Defender XDR门户的活动会话及高级搜寻访问权限。首先通过浏览器开发者工具捕获门户会话的完整Cookie字符串(包括sccauth、XSRF-TOKEN等关键令牌),随后在PowerShell环境中运行提取脚本Get-DefenderSchema.ps1,传入CookieString与TenantId参数即可自动获取全部或指定表的Schema数据。获取的JSON文件可直接用于安全分析、KQL查询开发或作为Claude AI等大型语言模型的自定义技能知识库,以提升威胁狩猎的准确性与效率。
背景与挑战
背景概述
Microsoft Defender XDR Advanced Hunting作为企业级威胁检测与狩猎的基石,其数据表结构的透明性与可访问性直接关系到检测工程的有效性。然而,在官方文档中,关键字段ActionType的完整枚举值被有意省略,仅提示用户查阅门户界面,这一信息鸿沟严重阻碍了自动化分析与AI辅助推理的进程。为弥合这一缺陷,该数据集应运而生,旨在通过提取门户内部API中的完整表结构,系统性地收录所有ActionType值及其描述。由社区研究者主导创建,该项目不仅为KQL查询编写者、AI模型训练及安全实验室提供了权威的机器可读参考,还通过开源形式显著提升了Microsoft Defender生态中威胁狩猎任务的精确性与可复现性。
当前挑战
该数据集所面对的挑战多维交织。一方面,核心难题在于领域信息不对称——微软官方公开文档刻意回避ActionType枚举值的完整发布,迫使检测工程师依赖手动浏览门户UI这种低效率且易出错的方式发现有效值,导致AI辅助工具因缺乏权威参考而频繁产生幻觉。另一方面,数据抽取过程同样充满技术障碍:内部API采用基于浏览器会话的认证机制,需完整捕获并实时更新包含多个关键Cookie的字符串,而会话有效期仅30至60分钟,一旦过期便触发HTTP 440错误;此外,严苛的速率限制(每分钟250次请求)要求脚本以300毫秒间隔等待,在60张表上完成全量拉取需耗费大量时间。数据更新维护还需持续同步微软GitHub上的原始Markdown文档,以确保与公共栏位的描述保持一致,进一步增加了持续运营的成本。
常用场景
经典使用场景
在网络安全与威胁检测领域,Microsoft Defender XDR Advanced Hunting 数据集是安全分析师与检测工程人员挖掘端点行为模式的核心素材。其最经典的应用场景在于利用完整的 ActionType 枚举值构建精确的 Kusto 查询语言(KQL)规则,以识别诸如进程创建(ProcessCreated)、远程线程注入(CreateRemoteThreadApiCall)等恶意活动。研究人员可基于该数据集中 61 张表的字段描述、数据类型及保留周期,设计出高召回率的狩猎查询,从而在庞杂的遥测日志中精准定位攻击者的隐匿痕迹,提升威胁响应的时效性与准确性。
解决学术问题
学术界长期面临 Microsoft 官方文档中 ActionType 字段描述缺失的困境,导致学生与学者无法系统性地枚举攻击面或复现检测实验。该数据集通过逆向解析门户内部 API,首次公开了完整的 ActionType 枚举与描述,从根本上解决了知识盲区。它使研究人员能够基于标准化、机器可读的模式参考,开展跨表关联分析与攻击链建模,推进了威胁狩猎方法论的可复现性。这一突破不仅在检测工程领域填补了权威性数据空白,更为安全教育与红蓝对抗训练提供了可信赖的基础参考。
实际应用
实际部署中,企业安全运营中心(SOC)可将该数据集嵌入自动化剧本,用于告警富化与误报消减。例如,利用 ActionType_Reference.md 快速校验告警日志中的活动类型是否合法,从而过滤无效触发。此外,安全编排与自动化响应(SOAR)平台能通过解析全量 JSON 模式,动态生成针对 VPN 登录异常或横向移动的猎杀规则。微软安全工程师亦可借助该数据集训练内部 AI 助手,确保其生成的 KQL 查询不出现字段幻觉,显著降低了高级威胁狩猎的门槛与人工审核成本。
数据集最近研究
最新研究方向
构建完整且机器可读的 Microsoft Defender XDR 高级狩猎模式表架构与动作类型枚举数据集,以弥合微软公开文档与门户内模式参考之间的信息鸿沟。该数据集通过逆向工程解析门户内部 huntingService API,提取了 61 张表的完整字段描述、动作类型全量列表、示例查询及数据保留元数据,解决了安全分析师、KQL 查询作者与 AI 辅助工具因缺乏标准化、可编程引用的动作类型列表而面临的难题——包括人工手动浏览门户面板、AI 幻觉生成虚假值、检测工程无法程序化枚举攻击面等痛点。前沿研究方向聚焦于将该结构化知识嵌入大语言模型技能定义(如 Claude AI Skill),实现基于真实架构约束的查询生成验证,杜绝虚构字段与动作类型;同时支持威胁狩猎规则自动化生成、训练环境权威数据基础构建,以及跨表攻击面可视化枚举。这一工作直接关联到安全运营中检测工程效率提升、AI 辅助安全分析可信度增强与微软安全生态知识图谱完善等热点事件,其意义在于为安全数据湖分析提供了首个完整、开放且可维护的官方模式基准,推动自动化狩猎、AI 驱动事件响应与标准化安全培训迈向新高度。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作