Mixtral-Upperbound

Hugging Face2025-11-29 更新2025-11-30 收录

下载链接：

https://huggingface.co/datasets/Korea-MES/Mixtral-Upperbound

下载链接

链接失效反馈

官方服务：

资源简介：

专注于基准测试的MLT数据集，包含数学、推理、知识、常识和真实性五个维度的数据，共682,707个样本，分为训练集和测试集，提供10个MLT标签，数据来源包括MetaMath、LMSYS_Chat、MMLU等多个子数据集。

创建时间：

2025-11-28

原始信息汇总

Benchmark-Focused MLT 数据集概述

数据集基本信息

总样本量: 682,707
训练样本: 680,662
测试样本: 2,000（每个MLT标签200个）
MLT标签数量: 10

目标基准测试

数学: GSM8K, MATH
推理: BBH, ARC-Challenge
知识: MMLU, MMLU-Pro
常识: HellaSwag, Winogrande, PIQA
真实性: TruthfulQA

类别分布

类别	数量	百分比
指令遵循	278,647	40.8%
数学	204,485	30.0%
知识	99,792	14.6%
常识	96,413	14.1%
推理	3,370	0.5%

数据来源分布

来源	数量	百分比
MetaMath	197,012	28.9%
LMSYS_Chat	179,518	26.3%
MMLU	99,792	14.6%
UltraFeedback	60,142	8.8%
Winogrande	40,398	5.9%
HellaSwag	39,905	5.8%
Tulu3_IF	28,776	4.2%
PIQA	16,110	2.4%
NoRobots	9,385	1.4%
GSM8K	7,473	1.1%
ARC_Test_Easy	2,251	0.3%
ARC_Train	1,119	0.2%
LIMA	826	0.1%

MLT分布

MLT标签	数量
[MLT:5]	74,806
[MLT:10]	56,993
[MLT:30]	72,359
[MLT:50]	35,622
[MLT:80]	42,504
[MLT:150]	122,005
[MLT:300]	148,968
[MLT:500]	86,094
[MLT:700]	34,755
[MLT:800]	8,601

详细数据来源

指令遵循

NoRobots (HuggingFaceH4/no_robots)
LIMA (GAIR/lima)
Tulu-3-IF (allenai/tulu-3-sft-personas-instruction-following)
UltraFeedback (argilla/ultrafeedback-binarized-preferences)
LMSYS-Chat (ytz20/LMSYS-Chat-GPT-5-Chat-Response)

数学

MetaMathQA (meta-math/MetaMathQA)
GSM8K (gsm8k)

推理

ARC-Challenge (allenai/ai2_arc)
ARC-Easy (allenai/ai2_arc)

知识

MMLU (cais/mmlu auxiliary_train)

常识

HellaSwag (Rowan/hellaswag)
Winogrande (winogrande)
PIQA (piqa)

使用方法

python from datasets import load_dataset

dataset = load_dataset("Korea-MES/Mixtral-Upperbound") print(dataset[train][0])

{question: ..., answer: ..., mlt: [MLT:50], source: ...}

搜集汇总

数据集介绍

构建方式

作为面向大语言模型能力评估的综合性数据集，Mixtral-Upperbound通过系统整合十余个权威基准测试源数据构建而成。其构建过程采用多源融合策略，从数学推理、常识理解、知识问答等五大能力维度精选样本，并引入多层级文本长度标记机制对68万余条样本进行标准化处理。数据来源涵盖MetaMathQA、MMLU等经典语料库，通过严格的去重与质量过滤流程，最终形成包含训练集68万条、测试集2000条的平衡分布结构。

使用方法

研究者可通过HuggingFace标准接口快速加载数据集，使用load_dataset函数即可获取包含问题、答案、MLT标签及数据源的全字段信息。该数据集适用于大语言模型的多维度能力评估，特别是在不同文本长度下的性能表现分析。建议将训练集用于模型微调，测试集则专为评估模型在数学推理、常识判断等十个核心基准任务上的泛化能力而设计，每个MLT类别均包含200个精心构造的评估样本。

背景与挑战

背景概述

Mixtral-Upperbound数据集作为多任务语言理解评估的重要资源，由韩国MES研究团队于2024年构建完成。该数据集整合了数学推理、常识判断、知识问答等十个核心领域的基准测试任务，涵盖GSM8K、MMLU等权威评测基准。通过融合MetaMathQA与LMSYS-Chat等优质数据源，其68万条样本构建起多维能力评估体系，为大规模语言模型的综合性能验证提供了标准化测试框架，显著推进了通用人工智能在复杂认知任务上的研究进程。

当前挑战

该数据集致力于解决多维度语言能力统一评估的复杂性挑战，需在数学推导、常识推理等异构任务间建立平衡的评测标准。构建过程中面临源数据异构性整合难题，包括不同基准测试的标注规范统一、知识领域跨度导致的语义鸿沟，以及指令遵循类任务与客观知识类任务的质量一致性控制。多层级文本复杂度标签的精确标注亦需克服人工评估与自动标注间的协同优化挑战。

常用场景

经典使用场景

在大型语言模型的多维度评估体系中，Mixtral-Upperbound数据集通过整合数学推理、常识判断与知识问答等十类任务，为模型综合能力测评提供了标准化基准。其精心设计的MLT分层机制能够精确量化模型在不同复杂度任务中的表现边界，成为验证模型泛化能力的黄金测试集。

解决学术问题

该数据集有效解决了大语言模型评估中存在的维度单一化问题，通过融合GSM8K数学推理与MMLU专业知识等多元任务，构建了全面衡量模型认知能力的评估体系。其创新性的多层级难度标注系统为研究模型能力边界提供了量化依据，显著推进了人工智能可解释性研究的发展进程。

实际应用

在实际部署场景中，该数据集被广泛应用于智能教育系统的能力诊断、金融领域风险模型的鲁棒性测试，以及医疗问答系统的知识准确性验证。其覆盖的十大基准任务能够精准定位模型在特定领域的性能短板，为产业级AI系统的迭代优化提供关键数据支撑。

数据集最近研究