NL2KQL

github2025-03-06 更新2025-03-22 收录

下载链接：

https://github.com/microsoft/NL2KQL

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于Kusto数据库的Schema、语义数据目录以及由领域专家为两个不同的Kusto数据库（Sentinel和Defender）编写的NLQ-KQL对。

This dataset encompasses the Schema, semantic data directory for Kusto databases, as well as NLQ-KQL pairs authored by domain experts for two distinct Kusto databases (Sentinel and Defender).

创建时间：

2025-03-06

原始信息汇总

NL2KQL数据集概述

数据集基本信息

名称: NL2KQL
论文: "NL2KQL: From Natural Language to Kusto Query"
引用格式: bibtex @article{tang2025nl2kqlnaturallanguagekusto, title={NL2KQL: From Natural Language to Kusto Query}, author={Xinye Tang and Amir H. Abdi and Jeremias Eichelbaum and Mahan Das and Alex Klein and Nihal Irmak Pakis and William Blum and Daniel L Mace and Tanvi Raja and Namrata Padmanabhan and Ye Xing}, journal={arXiv preprint arXiv:2404.02933}, year={2025} }

数据集内容

Schema
- 格式: JSON文件
- 描述: 定义了Kusto数据库的结构。
Semantic Data Catalog
- 格式: YAML文件
- 描述: 包含用于促进自然语言理解的注释。
Evaluation Datasets
- 内容: NLQ-KQL对
- 来源: 由领域专家为两个不同的Kusto数据库编写
- 数据库:
  - Sentinel: microsoft-sentinel
  - Defender: microsoft-defender

搜集汇总

数据集介绍

构建方式

NL2KQL数据集的构建过程基于Kusto数据库的结构与语义数据目录。首先，通过JSON文件定义了Kusto数据库的模式，确保数据结构的清晰与一致性。其次，语义数据目录以YAML文件形式提供，并附有丰富的注释，旨在增强自然语言理解能力。最后，评估数据集由领域专家精心设计，包含自然语言查询（NLQ）与Kusto查询语言（KQL）的配对，涵盖Microsoft Sentinel和Microsoft Defender两个独特的Kusto数据库。

特点

NL2KQL数据集的核心特点在于其高度结构化的数据模式与语义丰富的注释。数据集不仅提供了Kusto数据库的详细模式定义，还通过语义数据目录增强了自然语言与查询语言之间的映射能力。此外，评估数据集中的NLQ-KQL配对由领域专家精心设计，确保了数据的高质量与实用性，特别适用于自然语言到查询语言的转换研究。

使用方法

NL2KQL数据集的使用方法主要围绕自然语言到Kusto查询语言的转换任务展开。用户可以通过加载JSON文件获取Kusto数据库的模式信息，并结合YAML格式的语义数据目录进行自然语言理解。评估数据集中的NLQ-KQL配对可直接用于模型训练与性能评估，特别适用于开发与测试自然语言查询转换系统。此外，数据集的开源性质允许用户根据需求进行扩展与改进。

背景与挑战

背景概述

NL2KQL数据集由Xinye Tang等研究人员于2025年提出，旨在解决自然语言到Kusto查询语言（KQL）的转换问题。该数据集由微软研究院主导开发，结合了Microsoft Sentinel和Microsoft Defender两个Kusto数据库的独特架构，提供了丰富的自然语言查询（NLQ）与KQL的配对数据。NL2KQL的推出为自然语言处理（NLP）与数据库查询领域的交叉研究提供了重要支持，特别是在安全信息与事件管理（SIEM）领域，显著提升了用户通过自然语言与复杂数据库交互的便捷性。

当前挑战

NL2KQL数据集面临的主要挑战包括两个方面：首先，自然语言到KQL的转换需要解决语义理解的复杂性，尤其是针对不同领域的专业术语和多义词的处理。其次，数据集的构建过程中，如何确保NLQ-KQL配对的准确性和多样性是一个关键问题，这需要依赖领域专家的深度参与和精细标注。此外，Kusto数据库的复杂架构和动态更新特性也为数据集的构建和维护带来了额外的技术挑战。

常用场景

经典使用场景

NL2KQL数据集在自然语言处理（NLP）与数据库查询领域的交叉研究中具有重要地位。其经典使用场景包括将自然语言查询（NLQ）转换为Kusto查询语言（KQL），这一过程在数据分析、日志管理和安全监控等领域尤为关键。通过提供丰富的NLQ-KQL对，该数据集为研究人员和开发者提供了一个标准化的测试平台，用于评估和优化自然语言到查询语言的转换模型。

解决学术问题

NL2KQL数据集解决了自然语言处理与数据库查询之间的语义鸿沟问题。通过提供结构化的Kusto数据库模式（Schema）和语义数据目录（Semantic Data Catalog），该数据集帮助研究者更好地理解自然语言查询与数据库查询之间的映射关系。此外，数据集中的NLQ-KQL对为模型训练和评估提供了高质量的数据支持，推动了自然语言到查询语言转换技术的进步。

衍生相关工作

NL2KQL数据集催生了一系列相关研究工作，特别是在自然语言到查询语言转换领域。基于该数据集的研究成果，许多学者和开发者提出了改进的模型和算法，进一步提升了自然语言查询的准确性和效率。此外，该数据集还启发了其他数据库查询语言（如SQL）的自然语言转换研究，推动了跨领域的技术创新和应用扩展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集