five

RouterEval

收藏
github2025-03-20 更新2025-03-12 收录
下载链接:
https://github.com/MilkThink-Lab/RouterEval
下载链接
链接失效反馈
官方服务:
资源简介:
RouterEval是一个全面的基准测试,用于评估在路由大型语言模型(LLMs)范式中的路由器性能,包含12个LLM评估,超过8,500个LLMs,以及超过200,000,000条数据记录。

RouterEval is a comprehensive benchmark for evaluating router performance in the large language model (LLM) routing paradigm, comprising 12 LLM evaluation tasks, over 8,500 LLMs, and more than 200,000,000 data records.
创建时间:
2025-03-08
原始信息汇总

RouterEval 数据集概述

基本信息

数据集内容

  • 数据目录结构:

    data/ ├── leaderboard_score/ # 200M score records across 8500 LLMs and 12 datasets ├── leaderboard_prompt/ # Full prompts for all test cases ├── leaderboard_embed/ # Pre-computed embeddings (4 types) └── router_dataset/ # ready-to-use router evaluation data (12 datasets)

数据下载

快速开始

  • 推荐步骤:
    1. 创建data文件夹
    2. 下载router_dataset.zipdata/目录
    3. 解压文件
  • 最小使用示例: 运行quick_start.ipynb

实验设置

难度级别 候选池大小 候选组类型
Easy [3, 5] all strong / all weak / strong to weak
Hard [10, 100, 1000] all strong / all weak / strong to weak

基准路由器测试

  • 包含的路由器类型:
    • C-RoBERTa-cluster
    • MLPR_LinearR
    • PRKnn-knn
    • R_o (Oracle & r_o & random)
    • RoBERTa-MLC
  • 测试命令: python test_router.py

自定义路由器测试

  1. router/下创建新文件夹
  2. 按要求实现方法
  3. test_router.py中添加运行命令
  4. 运行测试

高级教程

  1. 替换嵌入模型:
    • 下载leaderboard_prompt并使用自定义嵌入模型处理
    • 或使用预计算的嵌入(包含4种模型)
  2. 构建路由器数据集:
    • 下载leaderboard_score, leaderboard_prompt, leaderboard_embed
    • 运行get_router_dataset.py

基准结果

  • 包含在figure/table1.pngfigure/table2.png
搜集汇总
数据集介绍
main_image_url
构建方式
RouterEval数据集的构建,是通过整合超过八千五百个大型语言模型(LLMs)在十二个不同数据集上的表现,形成了一个全面评估路由性能的基准。该数据集的构建涉及收集和整理模型在不同难度级别、候选池大小和候选群组上的评分记录,进而生成可用于路由器评估的数据。
特点
RouterEval数据集的特点在于其规模宏大,包含了超过两亿条评分记录,覆盖了多种类型的大型语言模型。此外,数据集提供了不同难度级别的设置,以及预计算好的嵌入向量,便于研究者进行模型训练和评估。数据集的结构化设计使得其在路由LLMs领域的研究中具有重要价值。
使用方法
使用RouterEval数据集,研究者首先需要在Python虚拟环境中安装必要的依赖包。之后,可以通过提供的下载链接获取数据集,推荐直接使用预构建的路由数据集进行基本操作。对于自定义路由器的测试,用户需按照指定格式实现自己的方法,并在测试脚本中添加运行命令。高级使用中,用户还可以替换嵌入模型或重现数据集的构建过程。
背景与挑战
背景概述
RouterEval数据集,创建于2025年,是由MilkThink-Lab团队提出的一种全面评估路由语言模型(Routing LLMs)性能的基准。该数据集涵盖了12个语言模型评估任务,包含了超过8500个语言模型和超过2亿条数据记录。RouterEval旨在探索大规模语言模型中的模型级扩展问题,对相关领域产生了重要影响。
当前挑战
RouterEval数据集面临的挑战主要包括:1) 如何准确评估和比较不同路由策略的性能;2) 构建过程中,如何高效处理大规模数据集,并确保数据的质量和一致性;3) 在模型级扩展的研究中,如何合理设计实验以探究不同规模模型的表现差异。
常用场景
经典使用场景
在 routing LLMs 研究领域,RouterEval 数据集的典型应用场景是评估不同路由器的性能。该数据集提供了一个全面的标准,使得研究人员可以在统一的框架下对比和分析各类路由算法在语言模型中的效果,进而探索模型级别规模化的可能性。
衍生相关工作
基于 RouterEval 数据集,学术界已衍生出多项相关工作,包括对路由算法的改进、对新路由策略的探索,以及对现有路由器性能的深入分析,这些研究进一步拓展了 routing LLMs 的研究领域,促进了该领域的创新和发展。
数据集最近研究
最新研究方向
在语言模型领域,RouterEval数据集的提出标志着对路由LLMs(Language Model)模型级别扩展的探索达到了新的阶段。该数据集通过综合评估路由性能,为研究者在模型选择、性能优化方面提供了宝贵的实验基础。近期研究方向聚焦于利用RouterEval数据集,深入研究不同路由策略对LLMs性能的影响,探索模型规模扩大时的性能变化规律,以及如何通过路由机制提升模型在特定任务上的表现。这些研究对于理解大型语言模型的内部机制,以及优化其在实际应用中的性能具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作