five

constructed calibration dataset

收藏
arXiv2025-02-07 更新2025-02-26 收录
下载链接:
http://arxiv.org/abs/2502.04428v1
下载链接
链接失效反馈
官方服务:
资源简介:
本文中研究者构建了一个用于提升路由策略泛化到新数据集的校准数据集。该数据集通过一个数据无关的保留集来实现对有效路由决策的估计,而不需要依赖新的下游数据。这个校准数据集的构建是为了解决将路由策略泛化到新数据集时的挑战,其实际应用可能在于提高边缘设备上语言模型部署的响应可靠性。

In this paper, researchers constructed a calibration dataset designed to enhance the generalization of routing strategies to new datasets. This dataset enables the estimation of effective routing decisions via a data-independent holdout set, without relying on new downstream data. The construction of this calibration dataset aims to address the challenges in generalizing routing strategies to new datasets, and its practical application may lie in improving the response reliability of language model deployments on edge devices.
提供机构:
莱斯大学,加州大学圣地亚哥分校,明尼苏达大学,Meta AI,约翰霍普金斯大学
创建时间:
2025-02-07
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集采用了一种数据构建流程,旨在提高路由策略在新下游场景中的泛化能力。首先,从多个领域收集了一组多样化的数据集,然后使用选定的不确定性量化(UQ)方法对这些数据集进行处理,以捕获它们对应的不确定性分布。最后,从每个不确定性分布的每个桶中加权采样数据实例,形成最终的校准数据集。
使用方法
该数据集的使用方法如下:首先,从多个领域收集一组多样化的数据集,并使用选定的UQ方法对这些数据集进行处理。然后,从每个不确定性分布的每个桶中加权采样数据实例,形成最终的校准数据集。最后,使用校准数据集来确定不同路由比率下的阈值,以在新下游场景中建立路由策略。
背景与挑战
背景概述
随着大型语言模型(LLMs)在边缘设备上的部署日益普及,小语言模型(SLMs)因其高效的解码延迟和降低的能耗而常被采用。然而,SLMs在处理复杂查询时往往会产生不准确的结果。不确定性驱动的SLM路由策略提出了一种解决方案,当SLM对查询结果的置信度较低时,将高价值查询卸载到更强大的LLMs。这种方法遵循“如果你缺乏信心,寻求更强支持以增强可靠性”的原则。尽管依赖更强大的LLMs是有效的,但它增加了调用成本。因此,在效率与有效性之间取得平衡仍然是一个关键挑战。此外,将路由策略有效地推广到新数据集的研究还很少。本文作者进行了一项全面调查,研究了在1500多个设置下,从SLMs到LLMs的不确定性驱动路由策略的基准测试和泛化。我们的研究结果强调了以下几点:首先,不同不确定性量化(UQ)方法的不确定性-正确性一致性对路由性能有显著影响。其次,不确定性分布更多地取决于特定的SLM和所选的UQ方法,而不是下游数据。基于这一见解,我们提出了一种校准数据构建流程,并开源了一个构建的保留集,以增强在新的下游场景中的路由泛化。实验结果表明,校准数据有效地引导了路由性能,而无需任何新数据。
当前挑战
数据集相关的挑战包括:1)所解决的领域问题的挑战,即如何有效地将不确定性量化方法应用于SLM路由,以确保路由决策的有效性和可靠性;2)构建过程中所遇到的挑战,即如何构建一个通用的校准数据集,使其能够有效地推广到新的下游场景,并提高路由策略的泛化能力。
常用场景
经典使用场景
在边缘设备上部署大型语言模型(LLMs)时,为了提高效率,通常采用小语言模型(SLMs)。然而,SLMs在面对复杂查询时往往会产生不准确的响应。为了解决这个问题,研究人员提出了基于不确定性的SLM路由策略,当SLMs对查询结果的信心较低时,将高难度的查询卸载到更强的LLMs。这种策略可以有效地提高响应的可靠性,同时降低LLMs的调用成本。
解决学术问题
该数据集解决了SLMs在面对复杂查询时产生不准确的响应的问题,并提出了基于不确定性的SLM路由策略。此外,该数据集还研究了如何将路由策略泛化到新的数据集,以减少对下游数据的依赖。
实际应用
该数据集在实际应用场景中,可以用于构建通用的路由策略,以适应新的数据集。例如,在医疗可穿戴设备等高难度场景中,可以利用该数据集来提高响应的可靠性,并降低LLMs的调用成本。
数据集最近研究
最新研究方向
当前研究主要集中在探索小语言模型(SLMs)的不确定性估计在查询路由中的作用,以及如何有效地将路由策略推广到新的数据集。研究人员发现,不确定性估计与预测正确性之间的对齐对路由性能有显著影响,而不确定性分布主要取决于特定的SLM和选择的不确定性量化(UQ)方法,而不是下游数据。基于这些发现,他们提出了一种校准数据构建流程,并开源了一个构建的保留集,以增强在新下游场景中的路由推广。实验结果表明,校准数据有效地启动了路由性能,而无需任何新数据。这项工作为从基准测试到推广的不确定性路由提供了一个可访问和可复制的流程,并提出了未来研究的挑战和机遇。
相关研究论文
  • 1
    Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization莱斯大学,加州大学圣地亚哥分校,明尼苏达大学,Meta AI,约翰霍普金斯大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作