Guarded Query Routing Benchmark (GQR-Bench)
收藏arXiv2025-05-20 更新2025-05-22 收录
下载链接:
https://github.com/williambrach/gqr
下载链接
链接失效反馈官方服务:
资源简介:
GQR-Bench是一个针对受保护查询路由问题的评估基准,包含了法律、金融和医疗保健三个目标领域的数据集,以及用于测试对分布外查询鲁棒性的七个数据集。该数据集用于测试各种查询路由方法的性能,包括大型语言模型、高效的文本分类器和基于嵌入的传统机器学习模型。
GQR-Bench is an evaluation benchmark for protected query routing problems. It includes datasets from three target domains: law, finance, and healthcare, alongside seven datasets designed to test robustness against out-of-distribution queries. This benchmark is used to evaluate the performance of various query routing methods, including large language models (LLMs), efficient text classifiers, and traditional embedding-based machine learning models.
提供机构:
斯洛伐克技术大学, 南丹麦大学机器学习中心, aleph0 s.r.o., NetFire LLC
创建时间:
2025-05-20
原始信息汇总
GQR-Bench (Guarded Query Routing Benchmark) 数据集概述
数据集简介
- 用途:用于开发和测试AI系统中的保护性查询路由模型的基准和评估工具包
数据集组成
- 开发数据集:用于初步实验 (
gqr.load_dev_dataset()) - 训练数据集:用于模型开发 (
gqr.load_train_dataset()) - 测试数据集:
- 领域内测试数据 (
gqr.load_id_test_dataset()) - 领域外测试数据 (
gqr.load_ood_test_dataset())
- 领域内测试数据 (
数据标签
- 提供数字标签与域名之间的映射关系:
gqr.label2domain:数字标签到域名的映射gqr.domain2label:域名到数字标签的映射
评估方法
- 通过
gqr.score()函数评估模型性能 - 需要提供评分函数:接收文本输入(str),返回预测的领域标签(int)
安装使用
- 安装命令:
pip install gqr - 快速开始:提供Python代码示例加载数据集和进行评估
贡献方式
- 通过GitHub仓库提交改进、额外评估指标或数据集增强
- 克隆命令:
git clone git@github.com:williambrach/gqr.git
搜集汇总
数据集介绍

构建方式
GQR-Bench数据集的构建采用了多源数据集融合的策略,旨在模拟真实场景下的查询路由问题。该数据集整合了三个目标领域(法律、金融、医疗)的专用数据集作为域内查询样本,同时精选了七个涵盖毒性内容、冒犯性语言和仇恨言论等不同范畴的数据集作为域外查询样本。通过严格的训练-验证-测试划分(如法律领域9611/2402/2987样本量),确保了评估的可靠性。特别值得注意的是,域外数据集仅用于测试阶段,完全模拟了实际应用中可能遇到的未知查询类型。
特点
GQR-Bench的核心特征体现在其双重评估维度的创新设计。数据集不仅包含常规的域内分类准确率指标,更独创性地引入了域外检测准确率评估,并通过调和平均数(GQR-Score)实现二者的平衡度量。这种设计使得该基准能同时评估模型在专业领域分类和异常查询过滤两方面的能力。数据构成上,法律领域采用StackExchange问答数据,金融领域使用专业指令数据集,医疗领域则整合了十万级临床对话,确保了各领域数据的专业深度。域外查询特别包含丹麦语、斯洛伐克语等多语言样本,增强了跨语言场景的测试广度。
使用方法
使用GQR-Bench进行模型评估时,需遵循其特有的三级评估框架。首先在域内分类任务中测量模型将查询准确路由至法律、金融或医疗领域的能力;其次通过七类域外数据集测试模型识别非常规查询的鲁棒性;最终通过GQR-Score综合评判整体性能。实践层面,研究者可采用Python软件包gqr快速加载基准数据,其标准化接口支持直接对接各类文本分类模型。评估时应特别注意域外数据仅用于测试集的规范,建议参照论文提供的WideMLP阈值设定(0.99置信度)等最佳实践进行对比实验。对于工业级应用,可重点参考<4ms延迟的轻量级方案对比数据。
背景与挑战
背景概述
Guarded Query Routing Benchmark (GQR-Bench) 是由斯洛伐克工业大学(STU)和南丹麦大学机器学习中心的研究团队于2025年提出的新型评估基准,旨在解决大语言模型(LLM)查询路由中的关键挑战。该数据集聚焦于法律、金融和医疗三个目标领域,整合了七个不同类型的分布外查询数据集,首次系统性地将领域专家路由与安全检测任务相结合。作为首个专门针对防护式查询路由的基准,GQR-Bench通过引入谐波平均评估指标(GQR-Score),为衡量模型在领域分类和异常检测的双重能力提供了标准化测试框架,对优化LLM应用的成本效率与安全性具有重要价值。
当前挑战
GQR-Bench面临的核心挑战体现在两个维度:在领域问题层面,需解决多领域查询的精确分类与未知类型查询的鲁棒识别之间的平衡难题,特别是处理跨语言、跨领域及恶意输入等复杂场景;在构建技术层面,存在训练数据与真实分布外查询的语义鸿沟、多源数据集间的标注一致性维护,以及轻量级模型在高维文本特征中保持检测精度的工程挑战。实验表明,即使最优模型Llama3.1-8B的OOD检测准确率仍存在12%的差距,而传统方法在跨语言查询识别上的平均准确率不足60%,凸显该领域仍有显著提升空间。
常用场景
经典使用场景
GQR-Bench数据集在大型语言模型(LLM)查询路由领域具有经典应用场景。该数据集主要用于评估和比较不同模型在处理查询路由任务时的性能,特别是在面对分布外(OOD)查询时的鲁棒性。通过模拟法律、金融和医疗三个目标领域的查询路由问题,GQR-Bench为研究者提供了一个标准化的测试平台,用于验证模型在真实场景中的适用性。
实际应用
在实际应用中,GQR-Bench数据集可用于优化企业级LLM系统的查询路由机制。例如,在金融服务领域,系统可以利用该数据集训练的路由模型,将用户查询准确分类并路由至相应的专业LLM,同时过滤掉无关或潜在有害的查询。这不仅提高了系统的响应效率,还显著降低了计算成本。此外,医疗和法律领域的专业服务也可通过类似方式提升查询处理的精确性和安全性。
衍生相关工作
GQR-Bench的推出催生了一系列相关研究工作。例如,基于该数据集的评估结果,研究者们开始探索更高效的文本分类器(如WideMLP和fastText)在查询路由任务中的应用。此外,一些研究还尝试结合动态阈值技术和风险降低方法,进一步提升模型在OOD检测中的性能。这些衍生工作不仅扩展了GQR-Bench的应用范围,也为查询路由领域的未来发展提供了新的方向。
以上内容由遇见数据集搜集并总结生成



