Jackal
收藏arXiv2025-09-28 更新2025-10-01 收录
下载链接:
https://github.com/EliasLumer/Jackal-Text-to-JQL-Benchmark-LLMs
下载链接
链接失效反馈官方服务:
资源简介:
Jackal是一个大规模的文本到JQL(Jira查询语言)数据集,包含100,000个自然语言查询和对应的验证过的JQL查询以及在一个包含超过200,000个问题的实时Jira实例上的执行结果。为了模拟用户查询的多样性,每个自然语言请求都以四种NL查询变体表达:长NL、短NL、语义相似和语义精确。Jackal旨在填补文本到JQL研究的空白,为自然语言到JQL的映射提供一个开放、大规模、基于执行的基准。
Jackal is a large-scale text-to-JQL (Jira Query Language) dataset containing 100,000 natural language queries paired with their validated JQL queries and execution results obtained from a live Jira instance with over 200,000 issues. To simulate the diversity of user queries, each natural language request is expressed in four NL query variants: long NL, short NL, semantically similar, and semantically precise. Jackal aims to fill the research gap in text-to-JQL studies, providing an open, large-scale, execution-based benchmark for natural language to JQL mapping.
提供机构:
普华永道
创建时间:
2025-09-28
原始信息汇总
Jackal数据集概述
数据集名称
Jackal
核心用途
评估大型语言模型在文本到JQL转换任务中的表现
数据规模
- 完整数据集:包含100,000对黄金标准的JQL与自然语言对应样本
- 精简数据集:包含5,000对黄金标准的JQL与自然语言对应样本(Jackal-5K)
数据内容
- 数据格式:自然语言查询与Jira查询语言(JQL)的对应配对
- 数据质量:经过验证的黄金标准数据对
数据获取
数据集文件存储于项目根目录下的dataset文件夹中
相关技术
文本到JQL转换:将用户自然语言查询转换为Jira查询语言(JQL)的过程
搜集汇总
数据集介绍

构建方式
在构建Jackal数据集的过程中,研究团队采用了一种严谨的流程,以确保数据集的真实性和实用性。首先,从包含超过20万个问题的实时Jira实例中生成候选JQL查询,这些查询通过组合模式字段形成包含2至5个子句的复合过滤器。为了模拟企业环境中的实际使用场景,团队应用了手工设计的有效性约束,避免矛盾或不连贯的查询组合。每个查询都通过执行验证,仅保留返回非空结果的查询,从而确保所有JQL查询的可执行性。最终,通过程序化生成和验证,构建了包含10万个有效JQL查询的数据集,并利用大型语言模型生成对应的自然语言变体,以增强多样性。
特点
Jackal数据集以其大规模和真实性著称,包含10万个自然语言请求与已验证的JQL查询对,覆盖了Jira实例中的多种复杂场景。数据集的一个显著特点是引入了四种用户查询变体:长自然语言、短自然语言、语义相似和语义精确,这些变体模拟了真实企业环境中用户表达查询的多样性。此外,数据集基于实时Jira实例的执行结果进行验证,确保了查询的实用性和准确性。通过均衡分布子句数量和查询类型,Jackal提供了丰富的词汇覆盖和查询复杂度,使其成为评估文本到JQL转换任务的挑战性基准。
使用方法
使用Jackal数据集时,研究人员可以通过其提供的评估工具包对大型语言模型在文本到JQL任务上的性能进行系统评估。数据集的核心使用方法是基于执行准确性的评估,即比较模型生成的JQL查询与黄金查询在相同Jira快照上的执行结果是否一致。此外,还支持精确匹配和规范精确匹配等辅助指标,以全面衡量模型的输出质量。用户可以从数据集中提取分层子集,如Jackal-5K,用于标准化测试,同时利用发布的静态数据转储确保结果的可复现性。这种方法有助于识别模型在处理不同查询变体时的优势和局限,推动领域特定语言翻译研究的进展。
背景与挑战
背景概述
Jackal数据集由普华永道研究团队于2025年发布,作为首个面向Jira查询语言(JQL)的开放、大规模、基于执行的文本转JQL基准。该数据集旨在解决企业环境中自然语言与结构化查询语言之间的转换难题,核心研究问题聚焦于提升大型语言模型在真实Jira实例中生成可执行JQL查询的准确性与鲁棒性。其创新性在于通过包含10万对经过验证的自然语言-JQL映射,并引入四种用户查询变体(长自然语言、短自然语言、语义相似、语义精确),显著推动了领域特定语言解析研究的发展,为Jira生态系统中的自然语言接口提供了标准化评估框架。
当前挑战
在领域问题层面,Jackal揭示了当前最先进大型语言模型在文本转JQL任务中的显著局限性:模型对语义精确查询的准确率可达99.3%,但在处理语义相似查询时骤降至22.7%,凸显出现有技术对语言变异性的适应能力不足。构建过程中的挑战主要体现为三方面:首先需确保生成的10万条JQL查询在包含20万条记录的实时Jira实例中具备可执行性与结果非空性;其次要设计覆盖不同语言风格的查询变体以模拟真实企业场景;最后还需解决JQL特有的实例依赖性难题,包括自定义字段、权限约束与关联问题遍历等复杂因素,这些特性使得基于字符串匹配的传统评估方法失效,必须依赖执行准确性作为核心度量标准。
常用场景
经典使用场景
在项目管理与软件工程领域,Jackal数据集为自然语言到JQL查询的转换任务提供了标准化评估框架。该数据集通过包含四种用户查询变体(长自然语言、短自然语言、语义相似和语义精确),模拟了企业环境中用户表达查询意图的多样性。研究团队利用该数据集对23个大语言模型进行系统性评估,通过执行准确率这一核心指标,揭示了模型在理解不同复杂度自然语言指令时的性能差异,为文本到领域特定语言的转换研究建立了新的基准。
解决学术问题
Jackal数据集有效解决了自然语言处理领域长期存在的语义解析评估难题。传统基于字符串匹配的评估方法往往无法准确反映查询语义的正确性,而该数据集通过实时执行生成的JQL查询并比对结果集,实现了对模型语义理解能力的精准度量。特别针对企业级应用场景中常见的权限约束、自定义字段和关联问题遍历等复杂特性,该数据集提供了真实环境下的验证机制,填补了文本到JQL转换任务中执行验证评估的空白,推动了领域特定语言理解研究的方法论创新。
衍生相关工作
Jackal数据集的发布催生了多个重要的衍生研究方向。在模型架构层面,研究者开始探索针对JQL语法特性的约束解码机制,如语法引导的生成策略和模式感知的编码器设计。评估方法论方面,该数据集启发了对多轮对话式查询和跨实例泛化能力的系统性研究。同时,基于该数据集构建的基准测试框架已被扩展到其他领域特定语言任务,包括文本到Cypher查询和文本到SPARQL转换等,形成了一套完整的领域特定语言理解评估体系,持续推动着企业级自然语言接口技术的发展。
以上内容由遇见数据集搜集并总结生成



