RouterEval

github2025-03-20 更新2025-03-12 收录

下载链接：

https://github.com/MilkThink-Lab/RouterEval

下载链接

链接失效反馈

官方服务：

资源简介：

RouterEval是一个全面的基准测试，用于评估在路由大型语言模型（LLMs）范式中的路由器性能，包含12个LLM评估，超过8,500个LLMs，以及超过200,000,000条数据记录。

RouterEval is a comprehensive benchmark for evaluating router performance in the large language model (LLM) routing paradigm, comprising 12 LLM evaluation tasks, over 8,500 LLMs, and more than 200,000,000 data records.

创建时间：

2025-03-08

原始信息汇总

RouterEval 数据集概述

基本信息

名称: RouterEval
类型: 大型语言模型（LLM）路由评估基准
规模:
- 12个LLM评估任务
- 8,500+ LLMs
- 200,000,000+ 数据记录
官方论文: RouterEval: A Comprehensive Benchmark for Routing LLMs to Explore Model-level Scaling Up in LLMs
许可证: GitHub仓库许可证标识（具体类型未明确说明）

数据集内容

数据目录结构:

data/ ├── leaderboard_score/ # 200M score records across 8500 LLMs and 12 datasets ├── leaderboard_prompt/ # Full prompts for all test cases ├── leaderboard_embed/ # Pre-computed embeddings (4 types) └── router_dataset/ # ready-to-use router evaluation data (12 datasets)

数据下载

下载链接:

快速开始

推荐步骤:
1. 创建data文件夹
2. 下载router_dataset.zip到data/目录
3. 解压文件
最小使用示例: 运行quick_start.ipynb

实验设置

难度级别	候选池大小	候选组类型
Easy	[3, 5]	all strong / all weak / strong to weak
Hard	[10, 100, 1000]	all strong / all weak / strong to weak

基准路由器测试

包含的路由器类型:
- C-RoBERTa-cluster
- MLPR_LinearR
- PRKnn-knn
- R_o (Oracle & r_o & random)
- RoBERTa-MLC
测试命令: python test_router.py

自定义路由器测试

在router/下创建新文件夹
按要求实现方法
在test_router.py中添加运行命令
运行测试

高级教程

替换嵌入模型:
- 下载leaderboard_prompt并使用自定义嵌入模型处理
- 或使用预计算的嵌入（包含4种模型）
构建路由器数据集:
- 下载leaderboard_score, leaderboard_prompt, leaderboard_embed
- 运行get_router_dataset.py

基准结果

包含在figure/table1.png和figure/table2.png中

搜集汇总

数据集介绍

构建方式

RouterEval数据集的构建，是通过整合超过八千五百个大型语言模型（LLMs）在十二个不同数据集上的表现，形成了一个全面评估路由性能的基准。该数据集的构建涉及收集和整理模型在不同难度级别、候选池大小和候选群组上的评分记录，进而生成可用于路由器评估的数据。

特点

RouterEval数据集的特点在于其规模宏大，包含了超过两亿条评分记录，覆盖了多种类型的大型语言模型。此外，数据集提供了不同难度级别的设置，以及预计算好的嵌入向量，便于研究者进行模型训练和评估。数据集的结构化设计使得其在路由LLMs领域的研究中具有重要价值。

使用方法

使用RouterEval数据集，研究者首先需要在Python虚拟环境中安装必要的依赖包。之后，可以通过提供的下载链接获取数据集，推荐直接使用预构建的路由数据集进行基本操作。对于自定义路由器的测试，用户需按照指定格式实现自己的方法，并在测试脚本中添加运行命令。高级使用中，用户还可以替换嵌入模型或重现数据集的构建过程。

背景与挑战

背景概述

RouterEval数据集，创建于2025年，是由MilkThink-Lab团队提出的一种全面评估路由语言模型（Routing LLMs）性能的基准。该数据集涵盖了12个语言模型评估任务，包含了超过8500个语言模型和超过2亿条数据记录。RouterEval旨在探索大规模语言模型中的模型级扩展问题，对相关领域产生了重要影响。

当前挑战

RouterEval数据集面临的挑战主要包括：1) 如何准确评估和比较不同路由策略的性能；2) 构建过程中，如何高效处理大规模数据集，并确保数据的质量和一致性；3) 在模型级扩展的研究中，如何合理设计实验以探究不同规模模型的表现差异。

常用场景

经典使用场景

在 routing LLMs 研究领域，RouterEval 数据集的典型应用场景是评估不同路由器的性能。该数据集提供了一个全面的标准，使得研究人员可以在统一的框架下对比和分析各类路由算法在语言模型中的效果，进而探索模型级别规模化的可能性。

衍生相关工作

基于 RouterEval 数据集，学术界已衍生出多项相关工作，包括对路由算法的改进、对新路由策略的探索，以及对现有路由器性能的深入分析，这些研究进一步拓展了 routing LLMs 的研究领域，促进了该领域的创新和发展。

数据集最近研究