personalized_router_bench

Hugging Face2025-06-09 更新2025-06-10 收录

下载链接：

https://huggingface.co/datasets/ulab-ai/personalized_router_bench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含在论文“PersonalizedRouter”中展示的数据集。数据集包含多种配置，分别对应不同的模拟策略。其中，`v1`后缀表示多成本效率模拟策略，`v2`后缀表示大型语言模型作为评判者的模拟策略。`router_user_data_v1`可用于训练和测试个性化路由器模型，该文件收集了10个候选大型语言模型在不同性能和成本设置下对240个问题的响应。`router_user_data_v2`收集了10个候选大型语言模型对240个问题的响应，并模拟了9个不同用户群体对这些响应的偏好。

创建时间：

2025-06-08

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 图机器学习 (graph-ml)
语言: 英语 (en)
数据规模: 10K<n<100K
标签: 图机器学习 (graph-ml), 大语言模型 (large-language-model)
数据集名称: personalized_router_bench

数据集配置

Multi-cost-efficiency_Simulation
- 数据文件: router_user_data_v1.csv
LLM-as-a-Judge_Simulation
- 数据文件: router_user_data_v2.csv
LLM_judge_results
- 数据文件: raw/llm_judge_results.csv
Router_data_v1
- 数据文件: raw/router_data.csv
Router_data_v2
- 数据文件: raw/router_data_v2.csv
QA
- 数据文件: raw/unified_qa_data.csv

数据集描述

router_user_data_v1: 收集了10个候选大语言模型 (LLMs) 在240个问题上的响应，涵盖不同性能和成本设置。
router_user_data_v2: 收集了10个候选大语言模型 (LLMs) 在240个问题上的响应，并模拟了9个不同用户群体对这些响应的偏好。

用途

router_user_data_v1 和 router_user_data_v2 可用于训练和测试 PersonalizedRouter。

搜集汇总

数据集介绍

构建方式

在个性化路由研究领域，personalized_router_bench数据集通过两种创新策略构建。基于多成本效率模拟策略的v1版本，系统性地采集了10个候选大语言模型在240个问题上的响应数据，涵盖不同性能和成本配置场景。采用LLM-as-a-Judge模拟策略的v2版本，则在相同问题集基础上额外标注了9类用户群体对模型输出的偏好特征，形成多维度的评估体系。原始数据经过严格的清洗和标准化处理，最终生成包含路由决策、用户偏好和成本效率等关键指标的结构化数据集。

使用方法

研究者可通过加载router_user_data_v1进行基础路由算法的开发，利用性能-成本联合指标优化模型选择策略。v2版本数据特别适用于个性化推荐系统的训练，通过分析9类用户群体的偏好模式构建定制化路由模型。配套提供的LLM评估结果文件支持端到端的验证流程，原始路由数据则可用于算法对比研究。建议采用交叉验证方案划分训练测试集，并注意不同版本数据在评估指标上的差异性。

背景与挑战

背景概述

personalized_router_bench数据集诞生于大语言模型（LLM）应用蓬勃发展的时代背景下，由研究团队在探索个性化路由策略时构建。该数据集聚焦于解决大语言模型在多样化用户需求下的响应优化问题，通过模拟不同性能与成本设置下的LLM响应，为研究者提供了评估和优化个性化路由策略的基准。数据集的构建体现了对多成本效率模拟策略和基于LLM评判模拟策略的深入探索，旨在推动个性化服务在自然语言处理领域的发展。

当前挑战

该数据集面临的挑战主要体现在两个方面：其一，在领域问题层面，如何精准捕捉和模拟多样化用户群体对大语言模型响应的偏好差异，是一个复杂且具有挑战性的任务；其二，在构建过程中，协调不同性能与成本设置下10个候选LLM对240个问题的响应数据收集，确保数据的全面性和一致性，对数据质量控制提出了较高要求。

常用场景

经典使用场景

在大型语言模型（LLM）路由优化领域，personalized_router_bench数据集为研究者提供了丰富的实验基础。该数据集通过模拟10种候选LLM对240个问题的响应，并结合不同性能与成本设置，成为评估个性化路由策略效果的黄金标准。其多成本效率模拟和基于LLM评判的仿真策略，为路由算法比较提供了可重复的基准环境。

解决学术问题

该数据集有效解决了LLM服务部署中的关键学术难题。通过量化不同用户群体对模型响应的偏好差异，为个性化路由决策提供了数据支撑；其构建的多目标优化框架，突破了传统单一成本或性能指标的局限；针对模型响应质量与计算资源消耗的权衡问题，数据集提供的标注结果启发了后续多维度评估体系的建立。

实际应用

在实际应用层面，该数据集支撑着智能客服系统的动态路由优化。企业可根据用户画像自动分配最合适的LLM服务节点，在保证响应质量的同时降低计算成本；教育领域利用其多用户偏好数据，为不同学习风格的学生定制知识解答服务；金融行业则借鉴其成本效率评估方法，优化智能投顾系统的资源分配策略。

数据集最近研究