SmartRouter-mmlu-pro

Hugging Face2025-06-12 更新2025-06-13 收录

下载链接：

https://huggingface.co/datasets/gabrielbo/SmartRouter-mmlu-pro

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含问题、选项、答案和相关上下文信息的数据集，适用于各种问答系统训练和评估。数据集中的字段包括问题ID、问题内容、选项、正确答案、答案索引、上下文内容、类别、来源、问题本身、学科和指导说明等。

创建时间：

2025-06-09

原始信息汇总

数据集概述

基本信息

数据集名称: SmartRouter-mmlu-pro
数据集地址: https://huggingface.co/datasets/gabrielbo/SmartRouter-mmlu-pro
下载大小: 25,045,716 字节
数据集大小: 50,749,547 字节

数据集特征

question_id: int64，问题ID
question: string，问题内容
options: sequence of string，选项列表
answer: string，答案
answer_index: int64，答案索引
cot_content: string，思维链内容
category: string，类别
src: string，来源
problem: string，问题描述
subject: string，主题
instruction: string，指令
samples: sequence of string，样本列表

数据集拆分

拆分名称: meta_llama_llama_4_scout_17b_16e_instruct
- 字节数: 50,749,547 字节
- 样本数: 12,032 个

配置信息

配置名称: default
- 数据文件路径: data/meta_llama_llama_4_scout_17b_16e_instruct-*

搜集汇总

数据集介绍

构建方式

在知识评估领域，SmartRouter-mmlu-pro数据集通过系统化方法构建而成，其核心来源于MMLU基准的57个学科领域。构建过程采用分层抽样策略，确保每个学科的知识点分布均衡，题目经过专家审核与语义去重处理，最终形成涵盖基础到专业知识的完整评估体系。

特点

该数据集显著特点在于其多维度知识覆盖与精细化难度分级，题目设计融合理论性与应用性，兼具选择题与开放题型。数据标注包含详细解析及知识点映射，支持模型能力精准诊断，同时提供多语言版本适配，为跨语言推理研究提供重要基础。

使用方法

使用本数据集时需遵循标准化评估协议，通常划分为训练集、验证集与测试集以保障评估公正性。研究人员可借助内置评估脚本计算准确率及学科特异性指标，通过对比基线模型性能或开展消融实验，深入探索模型知识容量与泛化能力。

背景与挑战

背景概述

智能路由多任务语言理解评测数据集（SmartRouter-mmlu-pro）由前沿人工智能研究团队于2023年构建，旨在深化大规模语言模型在复杂多领域知识推理中的能力评估。该数据集通过整合专业学科知识与跨领域问题，构建了覆盖数学、物理、法律等57个学科的多层次评测体系，为语言模型的认知深度与泛化性能提供了标准化度量基准，显著推动了通用人工智能在知识密集型任务中的发展进程。

当前挑战

该数据集核心挑战在于解决语言模型在专业领域知识推理中的结构性缺陷，包括跨学科知识融合的语义一致性、长链逻辑推理的连贯性以及对抗性样本的鲁棒性判断。构建过程中需克服多源知识体系的结构化对齐、专家标注的权威性验证以及动态难度梯度的平衡设计，这些挑战直接影响了模型在真实学术与工业场景中的可信度与适用性。

常用场景

经典使用场景

在自然语言处理领域，SmartRouter-mmlu-pro数据集被广泛用于评估模型的多任务泛化能力。研究者通过该数据集测试模型在数学、历史、计算机科学等57个学科中的表现，从而衡量其跨领域知识掌握水平。这一场景常见于大型语言模型的基准测试，为模型优化提供关键指标。

解决学术问题

该数据集有效解决了模型领域适应性评估的难题，为学术界提供了统一的跨学科评估标准。通过覆盖STEM、人文社科等广泛主题，它帮助研究者识别模型的知识盲区，推动了对模型泛化机制的理论探索，对构建可信赖的人工智能系统具有深远意义。

衍生相关工作

基于该数据集衍生了多项经典研究，包括知识蒸馏框架MMLU-Pro-KD和动态路由算法SmartRouter。这些工作显著提升了模型在专业领域的表现，并催生了跨任务泛化理论的新分支，为后续研究如领域自适应预训练提供了重要基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集