dataset-A-routing-eval

Hugging Face2026-05-08 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/massaindustries/dataset-A-routing-eval

下载链接

链接失效反馈

官方服务：

资源简介：

数据集A是一个用于评估3个LLM模型和3个路由系统在6种能力上的分层数据集。总共有5339行数据，分为多个配置，包括编程、数学推理、规划代理、指令遵循、世界知识和创意合成。数据集包含来自多个来源的数据，如AIME-2025、BFCL-v4和Custom-Validated等，每个来源有不同的许可证。数据模式包括查询ID、查询内容、维度、来源、输入令牌数、预期答案等字段。所有提示和少样本示例均为英文。数据集还提供了关于令牌计数、自定义创意内容和合成少样本池的可重复性说明。

Dataset A is a hierarchical dataset designed to evaluate 3 LLM models and 3 routing systems across 6 capability dimensions. It contains a total of 5339 rows, divided into multiple configurations covering programming, mathematical reasoning, planning agents, instruction following, world knowledge, and creative synthesis. The dataset incorporates data from multiple sources including AIME-2025, BFCL-v4, Custom-Validated, among others, with each source holding its own distinct license. Its data schema includes fields such as query ID, query content, capability dimension, source, number of input tokens, expected answer, and more. All prompts and few-shot examples are provided in English. The dataset also provides reproducibility instructions regarding token counting, custom creative content, and the synthesized few-shot pool.

创建时间：

2026-05-08

搜集汇总

数据集介绍

构建方式

Dataset-A-routing-eval 是一个专为评估大语言模型路由系统而设计的分层数据集，其构建过程融合了多源数据整合与精细化的结构设计。数据集从14个不同来源（如 AIME-2025、LiveCodeBench-v6、SimpleQA 等）采集原始评测样本，每个来源遵循其独立的许可协议。在此基础上，数据被按照六种核心能力维度（编程、数学推理、规划与智能体、指令遵循、世界知识、创意合成）进行归类，并进一步细分为七个配置子集，包括聚合全部数据的“all”子集和各维度专属子集。每条数据均包含完整的提示文本、对应的期望答案（以 JSON 编码存储）、输入 token 数量（基于三种不同模型的 tokenizer 计算）、以及是否因许可限制而屏蔽查询的标记。这一系统化的构建方式为路由系统的公平、可复现评测奠定了坚实基础。

特点

该数据集的核心特点在于其多维度的分层结构与高度可复现的量化指标。数据集共包含5339条样本，覆盖了从短提示到长提示的不同长度范围（以长度带 short/med/long 标记），并提供了每个问题的 token 消耗量（针对 Qwen、DeepSeek、Kimi 三种模型），使研究者能够精确评估路由系统的成本效益。此外，每个维度均包含空分类型，便于独立分析模型在各能力上的表现差异。部分来源（如 GAIA-L1L2、GPQA-Diamond）的查询因许可限制被屏蔽，但仍保留元数据以确保数据集完整性。所有提示和少样本示例均为英文，并提供了详细的来源与许可信息，保障了数据使用的合规性与透明度。

使用方法

Datasets 库即可便捷地加载该数据集的任意配置。用户可通过指定配置名称访问全体数据或特定维度的子集，例如 `load_dataset("massaindustries/dataset-A-routing-eval", "all")` 加载所有5339条样本，或使用 `"coding"`、`"math_reasoning"` 等参数获取对应能力维度的1000条样本。数据集包含丰富的元数据字段，包括 query_id、query、dimension、source、shots、input_tokens_*、expected_answer 和 evaluation_protocol_id 等，便于进行路由策略的标准化评估与结果复现。需要注意的是，DeepSeek 与 Kimi 的 token 计数因 tokenizer 代理使用近似模型，存在±2-5%的预期偏差，用户可在实验报告中予以说明以确保评估的准确性。

背景与挑战

背景概述

Dataset-A-routing-eval是一个面向大语言模型路由系统评估的综合性基准数据集，由Massa Industries研究团队于2025年创建。该数据集核心聚焦于多维度能力评估与模型路由决策问题，旨在系统性地检验不同语言模型在编码、数学推理、规划代理、指令遵循、世界知识与创意合成六大核心维度的表现。通过整合来自AIME-2025、GSM8K、MATH-500等14个权威数据源的5339条样本，并引入三个代表性模型（Qwen3.5-9B、DeepSeek-V4-Flash、Kimi2.6）的精确令牌元数据，该数据集为智能路由系统的研发提供了标准化的评估框架，在推动多模型协作架构和自适应推理系统的发展中扮演着重要角色。

当前挑战

该数据集面临的挑战首先体现在路由系统研究的根本性难题上：如何依据查询的语义特征和复杂度，在异构模型池中实时选择最优推理路径。此外，数据集构建过程中遭遇了多重技术障碍，包括不同来源数据的许可证异构性，需要通过掩码机制对GAIA-L1L2和GPQA-Diamond等受限数据集的查询进行合规处理；令牌计算精度问题，由于DeepSeek和Kimi模型缺乏官方分词器，只能使用近似代理，导致令牌计数存在2-5%的系统性偏差；以及少量合成数据（如Custom-Validated和部分少样本池）的生成依赖于外部模型（Qwen3.5-122B），必须通过SHA256哈希锁定和裁判过滤器保障质量可复现性。

常用场景

经典使用场景

dataset-A-routing-eval 是专为评估大语言模型路由系统而设计的精细化分层数据集，涵盖了代码、数学推理、规划代理、指令遵循、世界知识与创造性合成六项核心能力维度。研究者可借助该数据集精准度量不同路由策略在多模态模型池（如 Qwen3.5-9B、DeepSeek-V4-Flash、Kimi2.6）中的分发效能，从而验证路由算法在任务分配、负载均衡与响应质量上的表现。其经典用法在于作为基准测试平台，系统性地比较各类路由机制在复杂多域场景下的优劣，为智能路由系统的优化提供可复现的标准化评估框架。

实际应用

在实际产业部署中，该数据集可用于优化智能问答系统、代码生成助手、多步骤规划引擎等场景的路由策略。企业可通过其在模型池中动态分配查询，优先选择成本更低或能力更匹配的模型，从而降低推理延迟与算力开销。例如，数学推理任务可定向调度至擅长该领域的模型，而创意合成则分配给创造力更强的模型。此外，路由系统提供商可借助该数据集验证其商业化产品在不同负载与领域下的鲁棒性，确保在大规模并发场景下仍能维持高精度与低资源消耗，实现从实验室到生产环境的平滑迁移。

衍生相关工作

该数据集衍生了一系列关于路由策略优化与多模型协作的突破性工作。研究者基于其6维度分层结构，开发了自适应路由算法，如利用强化学习训练的门控网络，动态匹配查询与模型能力。另有团队以此为基础，探索了路由系统在知识蒸馏中的角色，通过路由分配实现更高效的模型压缩。此外，该数据集催生了针对路由公平性与偏差分析的研究，揭示了不同模型在指令遵循与创造性任务上的偏好差异。这些工作共同推动了路由评测体系从单一指标向多目标、多约束的进化，为构建更加智能与经济的混合专家系统奠定了实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集