ICL-Router

github2025-10-14 更新2025-11-09 收录

下载链接：

https://github.com/lalalamdbf/ICL-Router

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于查询重构训练的训练集和测试集（question_train.json、question_test.json），用于ICL模型路由训练的训练集和测试集（train_router.json、test_router.json），以及记录候选LLM在代表性查询集上性能的专家评估文件（expert100.json等），评估集包含仅被部分模型正确回答的具有挑战性的查询

This dataset comprises training and test sets for query reconstruction training (question_train.json, question_test.json), training and test sets for ICL model routing training (train_router.json, test_router.json), alongside expert evaluation files such as expert100.json that record the performance of candidate LLMs on a representative query dataset. The evaluation set includes challenging queries that can only be correctly answered by a subset of the models.

创建时间：

2025-10-09

原始信息汇总

ICL-Router数据集概述

数据集基本信息

数据集名称：ICL-Router
核心用途：支持大语言模型路由任务的训练与评估
数据来源：https://huggingface.co/datasets/lalalamdbf/ICL-Router

数据文件组成

训练与测试集

query_train.json：用于查询重构训练的训练集
query_test.json：用于查询重构训练的测试集
train_router.json：用于ICL模型路由训练的训练集
test_router.json：用于ICL模型路由训练的测试集

专家模型评估集

expert100.json：包含100个问题的评估集，记录候选LLM在代表性查询集上的表现
expert300.json：包含300个问题的评估集
expert500.json：包含500个问题的评估集
expert1000.json：包含1000个问题的评估集

数据集特点

评估集构建采用挑战性查询选择策略
仅包含被部分模型正确回答的查询
排除所有模型均能正确回答或均回答错误的查询
所有评估集均来自基线方法使用的同领域基准
未引入额外数据源

评估集设计原则

确保评估具有区分度和挑战性
提供对模型能力的深入洞察
基于八个模型池中的子集表现进行筛选

搜集汇总

数据集介绍

构建方式

在大型语言模型路由研究领域，ICL-Router数据集通过多阶段流程精心构建。其核心采用查询重构训练与上下文学习模型路由训练的双轨机制，分别对应question_train.json与train_router.json等专项数据文件。评估集expert系列文件通过筛选八模型集群中仅部分模型能正确应答的鉴别性查询，剔除全对或全错样本，确保评估维度聚焦于模型能力的差异化表征。所有数据均源自基线方法采用的同领域基准，维持了数据源的纯净性与可比性。

使用方法

使用者可通过执行generate_experts_information.sh脚本启动挑战性查询集的生成流程。训练过程分为两个阶段：首先运行train_stage1.sh进行查询重构训练，继而通过train_stage2.sh开展上下文学习模型路由训练。数据集已内置评估代码于训练文件中，支持多GPU并行计算环境。用户仅需将下载的数据置于指定目录，即可依序执行训练流程，无需额外配置评估环节。

背景与挑战

背景概述

随着大规模语言模型在自然语言处理领域的广泛应用，如何高效调度异构模型资源成为关键研究课题。ICL-Router数据集由研究团队于2025年创建，聚焦于大语言模型路由机制优化，通过构建上下文学习框架实现智能模型选择。该数据集通过系统化采集八个主流语言模型在差异化任务中的表现数据，为模型能力评估与动态调度提供了重要基准，显著推进了异构模型协同计算的研究进程。

当前挑战

在模型路由领域，核心挑战在于如何准确量化不同语言模型的专长领域与能力边界。数据集构建过程中面临双重困难：其一是设计具有区分度的评估集合，需排除全模型通过或全失败的样本以保留判别性特征；其二是建立跨模型性能映射关系，要求精心设计查询重构与路由训练的双阶段框架，确保模型表征能有效迁移至未见过的任务场景。

常用场景

经典使用场景

在大型语言模型日益普及的背景下，ICL-Router数据集通过构建具有判别性的查询评估集，为模型路由任务提供了标准化基准。该数据集精心筛选出仅被部分模型正确回答的挑战性查询，有效排除了全对或全错的无效样本，从而聚焦于模型能力的差异化评估。这一设计使得研究人员能够系统性地探索不同模型在处理复杂语义任务时的性能边界，为智能路由算法的开发奠定了数据基础。

解决学术问题

该数据集主要解决了大模型生态中资源分配优化的核心学术问题。通过建立基于上下文学习的模型表征机制，它突破了传统路由方法依赖人工特征工程的局限，实现了对异构语言模型能力的动态评估。这种数据驱动的方法显著提升了模型选择的准确性与效率，为构建自适应智能计算系统提供了理论支撑，推动了高效能计算资源管理研究的发展。

实际应用

在实际部署场景中，ICL-Router数据集支撑的路由系统可广泛应用于云计算平台与边缘计算设备。通过实时分析用户查询与模型能力匹配度，该系统能动态调度最适合的语言模型执行任务，既保障了服务质量又优化了计算资源消耗。这种智能路由机制特别适用于需要平衡响应速度与精度的在线服务场景，如智能客服、内容生成等商业应用。

数据集最近研究