mmlu-pro-specific-choice-scored

Hugging Face2025-05-04 更新2025-05-05 收录

下载链接：

https://huggingface.co/datasets/gabrielbo/mmlu-pro-specific-choice-scored

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含问答数据的数据集，其中包括问题、选项、正确答案以及多种模型评分结果。数据集分为训练集，可用于问答系统的训练和评估。

创建时间：

2025-05-04

原始信息汇总

数据集概述

基本信息

数据集名称: mmlu-pro-specific-choice-scored
下载大小: 3,255,181 字节
数据集大小: 9,965,845 字节
训练集样本数: 870 个

数据集特征

question_index: int64，问题索引
question: string，问题内容
options: string，选项
category: string，问题类别
correct_answer: string，正确答案
target_option_letter: string，目标选项字母
samples: sequence of string，样本
GRMLlama32_scores: sequence of float32，GRMLlama32 分数
GRMLlama32_scores_normalized: sequence of float32，归一化的 GRMLlama32 分数
OffsetBias_scores: sequence of float32，OffsetBias 分数
OffsetBias_scores_normalized: sequence of float32，归一化的 OffsetBias 分数
GRM_scores: sequence of float32，GRM 分数
GRM_scores_normalized: sequence of float32，归一化的 GRM 分数
Skyworks_scores: sequence of float32，Skyworks 分数
Skyworks_scores_normalized: sequence of float32，归一化的 Skyworks 分数
URM_scores: sequence of float32，URM 分数
URM_scores_normalized: sequence of float32，归一化的 URM 分数
QRM_scores: sequence of float32，QRM 分数
QRM_scores_normalized: sequence of float32，归一化的 QRM 分数
GPM_scores: sequence of float32，GPM 分数
GPM_scores_normalized: sequence of float32，归一化的 GPM 分数
GRMGemma_scores: sequence of float32，GRMGemma 分数
GRMGemma_scores_normalized: sequence of float32，归一化的 GRMGemma 分数
ArmorRM_scores: sequence of float32，ArmorRM 分数
ArmorRM_scores_normalized: sequence of float32，归一化的 ArmorRM 分数
InternLM2Reward7B_scores: sequence of float32，InternLM2Reward7B 分数
InternLM2Reward7B_scores_normalized: sequence of float32，归一化的 InternLM2Reward7B 分数
DecisionTreeReward8B_scores: sequence of float32，DecisionTreeReward8B 分数
DecisionTreeReward8B_scores_normalized: sequence of float32，归一化的 DecisionTreeReward8B 分数

数据集配置

配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在机器学习评估领域，mmlu-pro-specific-choice-scored数据集通过精心设计的多选题框架构建而成。该数据集收录了涵盖广泛学科的870个问题样本，每个样本包含问题索引、题干文本、选项列表及学科分类等核心字段。其独特之处在于整合了来自GRMLlama32、OffsetBias、Skyworks等11种前沿评分模型的标准化输出，采用序列化存储方式记录各模型对选项的原始评分和归一化结果，为研究者提供了多维度的评估基准。

特点

该数据集最显著的特征在于其多模型评分矩阵的集成架构。每个问题样本不仅标注了标准答案和目标选项字母，更包含了11种不同奖励模型生成的评分序列，这些评分经过归一化处理确保跨模型可比性。数据字段采用层次化设计，将问题元数据与各模型的数值评估结果分离存储，既保持了数据结构的清晰性，又支持灵活的分析维度。学科分类标签的引入，使得研究者能够针对特定知识领域进行细粒度性能分析。

使用方法

研究者可通过HuggingFace平台直接加载该数据集，其标准化的split设计包含870个训练样本。典型应用场景包括对比不同奖励模型在多选题评估中的表现差异，或作为基准测试集验证新开发模型的判断能力。数据中的normalized评分序列支持直接用于模型间相关性分析，而原始评分则适用于深度误差分析。使用时应关注category字段实现学科维度的交叉验证，利用target_option_letter字段可快速定位模型判断与标准答案的偏差情况。

背景与挑战

背景概述

mmlu-pro-specific-choice-scored数据集是近年来在多选题评分领域兴起的重要基准工具，由专业研究团队构建以解决复杂知识评估中的标准化难题。该数据集整合了涵盖多学科的870道高质量多选题，每道题目均附有详尽的评分数据，包括来自GRMLlama32、OffsetBias等十余种前沿评分模型的标准化得分。其创新性在于通过多维评分矩阵，为研究者提供了分析不同评分模型性能差异的微观视角，特别是在处理专业领域知识时的表现差异。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，如何准确评估不同评分模型在跨学科多选题上的表现差异，这需要解决专业领域知识表示与通用评分标准的平衡问题；在构建过程中，研究人员需处理海量评分数据的标准化难题，包括不同模型输出量纲的统一、评分偏差的校正，以及保持数千个数据点间的一致性。这些技术挑战直接影响着数据集作为评估基准的可靠性和普适性。

常用场景

经典使用场景

在自然语言处理领域，mmlu-pro-specific-choice-scored数据集被广泛应用于评估和比较不同语言模型在多项选择题上的表现。该数据集通过提供丰富的问题类别和详细的评分标准，成为研究人员测试模型理解能力和推理能力的重要工具。特别是在模型优化和基准测试中，该数据集因其多样性和精确性而备受青睐。

衍生相关工作

基于mmlu-pro-specific-choice-scored数据集，许多经典研究工作得以展开，包括语言模型在多领域知识推理中的性能比较、评分模型的优化算法研究以及新型评估框架的开发。这些工作不仅扩展了数据集的应用范围，还进一步推动了自然语言处理技术的发展。

数据集最近研究