five

Mixtral-Upperbound

收藏
Hugging Face2025-11-29 更新2025-11-30 收录
下载链接:
https://huggingface.co/datasets/Korea-MES/Mixtral-Upperbound
下载链接
链接失效反馈
官方服务:
资源简介:
专注于基准测试的MLT数据集,包含数学、推理、知识、常识和真实性五个维度的数据,共682,707个样本,分为训练集和测试集,提供10个MLT标签,数据来源包括MetaMath、LMSYS_Chat、MMLU等多个子数据集。
创建时间:
2025-11-28
原始信息汇总

Benchmark-Focused MLT 数据集概述

数据集基本信息

  • 总样本量: 682,707
  • 训练样本: 680,662
  • 测试样本: 2,000(每个MLT标签200个)
  • MLT标签数量: 10

目标基准测试

  • 数学: GSM8K, MATH
  • 推理: BBH, ARC-Challenge
  • 知识: MMLU, MMLU-Pro
  • 常识: HellaSwag, Winogrande, PIQA
  • 真实性: TruthfulQA

类别分布

类别 数量 百分比
指令遵循 278,647 40.8%
数学 204,485 30.0%
知识 99,792 14.6%
常识 96,413 14.1%
推理 3,370 0.5%

数据来源分布

来源 数量 百分比
MetaMath 197,012 28.9%
LMSYS_Chat 179,518 26.3%
MMLU 99,792 14.6%
UltraFeedback 60,142 8.8%
Winogrande 40,398 5.9%
HellaSwag 39,905 5.8%
Tulu3_IF 28,776 4.2%
PIQA 16,110 2.4%
NoRobots 9,385 1.4%
GSM8K 7,473 1.1%
ARC_Test_Easy 2,251 0.3%
ARC_Train 1,119 0.2%
LIMA 826 0.1%

MLT分布

MLT标签 数量
[MLT:5] 74,806
[MLT:10] 56,993
[MLT:30] 72,359
[MLT:50] 35,622
[MLT:80] 42,504
[MLT:150] 122,005
[MLT:300] 148,968
[MLT:500] 86,094
[MLT:700] 34,755
[MLT:800] 8,601

详细数据来源

指令遵循

  • NoRobots (HuggingFaceH4/no_robots)
  • LIMA (GAIR/lima)
  • Tulu-3-IF (allenai/tulu-3-sft-personas-instruction-following)
  • UltraFeedback (argilla/ultrafeedback-binarized-preferences)
  • LMSYS-Chat (ytz20/LMSYS-Chat-GPT-5-Chat-Response)

数学

  • MetaMathQA (meta-math/MetaMathQA)
  • GSM8K (gsm8k)

推理

  • ARC-Challenge (allenai/ai2_arc)
  • ARC-Easy (allenai/ai2_arc)

知识

  • MMLU (cais/mmlu auxiliary_train)

常识

  • HellaSwag (Rowan/hellaswag)
  • Winogrande (winogrande)
  • PIQA (piqa)

使用方法

python from datasets import load_dataset

dataset = load_dataset("Korea-MES/Mixtral-Upperbound") print(dataset[train][0])

{question: ..., answer: ..., mlt: [MLT:50], source: ...}

搜集汇总
数据集介绍
main_image_url
构建方式
作为面向大语言模型能力评估的综合性数据集,Mixtral-Upperbound通过系统整合十余个权威基准测试源数据构建而成。其构建过程采用多源融合策略,从数学推理、常识理解、知识问答等五大能力维度精选样本,并引入多层级文本长度标记机制对68万余条样本进行标准化处理。数据来源涵盖MetaMathQA、MMLU等经典语料库,通过严格的去重与质量过滤流程,最终形成包含训练集68万条、测试集2000条的平衡分布结构。
使用方法
研究者可通过HuggingFace标准接口快速加载数据集,使用load_dataset函数即可获取包含问题、答案、MLT标签及数据源的全字段信息。该数据集适用于大语言模型的多维度能力评估,特别是在不同文本长度下的性能表现分析。建议将训练集用于模型微调,测试集则专为评估模型在数学推理、常识判断等十个核心基准任务上的泛化能力而设计,每个MLT类别均包含200个精心构造的评估样本。
背景与挑战
背景概述
Mixtral-Upperbound数据集作为多任务语言理解评估的重要资源,由韩国MES研究团队于2024年构建完成。该数据集整合了数学推理、常识判断、知识问答等十个核心领域的基准测试任务,涵盖GSM8K、MMLU等权威评测基准。通过融合MetaMathQA与LMSYS-Chat等优质数据源,其68万条样本构建起多维能力评估体系,为大规模语言模型的综合性能验证提供了标准化测试框架,显著推进了通用人工智能在复杂认知任务上的研究进程。
当前挑战
该数据集致力于解决多维度语言能力统一评估的复杂性挑战,需在数学推导、常识推理等异构任务间建立平衡的评测标准。构建过程中面临源数据异构性整合难题,包括不同基准测试的标注规范统一、知识领域跨度导致的语义鸿沟,以及指令遵循类任务与客观知识类任务的质量一致性控制。多层级文本复杂度标签的精确标注亦需克服人工评估与自动标注间的协同优化挑战。
常用场景
经典使用场景
在大型语言模型的多维度评估体系中,Mixtral-Upperbound数据集通过整合数学推理、常识判断与知识问答等十类任务,为模型综合能力测评提供了标准化基准。其精心设计的MLT分层机制能够精确量化模型在不同复杂度任务中的表现边界,成为验证模型泛化能力的黄金测试集。
解决学术问题
该数据集有效解决了大语言模型评估中存在的维度单一化问题,通过融合GSM8K数学推理与MMLU专业知识等多元任务,构建了全面衡量模型认知能力的评估体系。其创新性的多层级难度标注系统为研究模型能力边界提供了量化依据,显著推进了人工智能可解释性研究的发展进程。
实际应用
在实际部署场景中,该数据集被广泛应用于智能教育系统的能力诊断、金融领域风险模型的鲁棒性测试,以及医疗问答系统的知识准确性验证。其覆盖的十大基准任务能够精准定位模型在特定领域的性能短板,为产业级AI系统的迭代优化提供关键数据支撑。
数据集最近研究
最新研究方向
在大型语言模型多维度能力评估领域,Mixtral-Upperbound数据集通过整合数学推理、常识理解与知识问答等十类基准任务,为模型综合性能优化提供了重要支撑。当前研究聚焦于探索多任务学习框架下模型泛化能力的边界,特别是在复杂推理链分解与知识融合机制方面取得突破性进展。该数据集构建的MLT分层标注体系,正推动着动态难度自适应训练范式的革新,相关成果已应用于解决TruthfulQA中的真实性校验难题,并为MMLU-Pro等新型基准的演进提供了数据层面的理论依据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作