answers-with-reasoning-mmlu-pro

Hugging Face2026-05-01 更新2026-05-02 收录

下载链接：

https://huggingface.co/datasets/abhayesian/answers-with-reasoning-mmlu-pro

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为answers-with-reasoning-mmlu-pro，是项目Eliciting "Trying Hard": Does Reasoning Generalize Across Domains?中使用的三个姊妹数据集之一，专注于通用问答领域。数据集包含Qwen/Qwen3-8B模型在TIGER-Lab/MMLU-Pro数据集上的自蒸馏推理轨迹，经过过滤仅保留最终答案与标准答案匹配的样本。数据集结构包含多个字段：唯一ID、提示文本、完整对话消息、推理过程（不含标签）、最终答案、模型名称、完成原因、使用的token数量、提取的选项字母、标准答案字母、问题类别（14个MMLU-Pro学科之一）、来源信息、问题ID和答案索引等。数据收集采用固定设置：使用Qwen/Qwen3-8B模型，开启推理功能，温度参数0.6，top_p参数0.95，每个问题只采样一次。样本保留标准包括：答案必须正确、完成原因为stop、推理内容和最终答案非空。数据集包含1305个有效样本（原始采样1779个），覆盖生物学、商业、化学、计算机科学、经济学、工程学、健康、历史、法律、数学、其他、哲学、物理学和心理学等14个学科类别。已知限制包括学科分布不均衡（通过率从数学的95%到法律的41%不等）以及问题选项数量不一（4-10个选项）。该数据集由Redwood Research的Ryan Greenblatt于2026年创建，用于研究Qwen3-8B模型在跨领域推理泛化能力，不适用于外部基准测试发布。

创建时间：

2026-05-01

原始信息汇总

数据集概述：answers-with-reasoning-mmlu-pro

基本信息

数据集名称: answers-with-reasoning-mmlu-pro
数据集地址: https://huggingface.co/datasets/abhayesian/answers-with-reasoning-mmlu-pro
数据集大小: 下载大小约 9.12 MB，数据集大小约 20.76 MB
数据规模: 训练集包含 1474 个样本

数据来源与构建方法

该数据集是使用 Qwen/Qwen3-8B 模型对 TIGER-Lab/MMLU-Pro 数据集进行自蒸馏（Self-distillation）生成的结果。生成过程中启用了推理模式（enable_thinking=True），采用以下采样参数：

温度: 0.6
top_p: 0.95
每个问题仅采样一次（无过采样）

数据筛选条件

只有同时满足以下条件的样本被保留：

最终答案与标准答案（gold solution）匹配
finish_reason 为 stop（无长度截断）
推理内容（reasoning）和最终答案（answer）均非空

数据集特征

数据集中每条记录包含以下字段：

字段	类型	说明
`id`	string	唯一稳定标识符
`dataset`	string	数据集名称
`messages`	list[{role, content}]	完整聊天格式消息（系统+用户）
`prompt`	string	模型在采样时看到的用户输入内容
`reasoning`	string	`<think>...</think>` 内部的推理过程
`answer`	string	`</think>` 之后的内容（模型最终可见答案，可能包含 `oxed{}`）
`finish_reason`	string	结束原因，保留行均为 `stop`
`usage`	string	使用量信息
`model`	string	模型名称 `Qwen/Qwen3-8B`
`grade`	string	评分结果
`item_meta`	string	项目元数据

评分机制

从 </think> 之后的内容中提取字母（A-J）作为答案。提取优先级：

优先提取最后一个 oxed{X} 中的字母
回退到匹配 "answer is X" / "final answer: X" 模式
最后提取最后一个独立候选字母

匹配时不区分大小写

统计信息

保留样本数: 从 1779 个采样样本中保留了 1305 条
按学科分布的保留样本数:
- biology: 116
- business: 106
- chemistry: 106
- computer science: 97
- economics: 110
- engineering: 86
- health: 95
- history: 68
- law: 52
- math: 120
- other: 82
- philosophy: 76
- physics: 102
- psychology: 89

已知限制

学科分布偏差: 每个类别原始采样约 125 条，但通过率从约 95%（数学、生物学）到约 41%（法律）不等。保留数据集中偏向简单学科，在评估时需注意分层处理。
截断率: 所有保留行的 finish_reason 均为 stop，截断率为 0%。
选项数量差异: MMLU-Pro 每题选项从 4 到 10 不等，提示模板仅显示存在非空选项的字母。

关联数据集

该数据集是跨领域推理泛化研究项目的一部分，共有三个兄弟数据集：

数学领域: https://huggingface.co/datasets/abhayesian/answers-with-reasoning-omni-math
通用问答领域: https://huggingface.co/datasets/abhayesian/answers-with-reasoning-mmlu-pro（当前数据集）
代码领域: https://huggingface.co/datasets/abhayesian/answers-with-reasoning-apps

搜集汇总

数据集介绍

构建方式

该数据集源自对通用问答基准TIGER-Lab/MMLU-Pro的自我蒸馏式采样，选用推理能力激活的Qwen/Qwen3-8B指令模型，在温度系数0.6与top-p 0.95的配置下逐个问题生成单次回复。为确保数据质量，仅保留那些模型最终答案与标准答案一致的轨迹，并辅以精确的字母匹配算法进行验证，最终从1779个原始样本中筛选出1305条高质量数据。

特点

数据集具备鲜明的结构化优势，每条样本完整保留了模型从<think>标记开始的全链推理过程直至最终答题内容，形成可复现的推理轨迹。数据横跨生物、物理、法律等14个学科类别，覆盖从4选1到10选1的不同难度选项配置。值得关注的是，不同学科间通过率差异显著（数学类高达95%，法律类仅41%），自然引入了学科难度的分层特性。

使用方法

数据集以Parquet格式分片存储于HuggingFace平台，通过简洁的API即可加载全部训练数据。每条样本包含模型、推理过程、最终答案、使用统计及评分等多元字段，特别适合用于跨领域推理泛化研究中的验证集或微调基础。使用者可按学科类别进行分层抽样，以平衡不同难度子集对评估结果的影响，亦可直接复用其预定义的消息格式进行监督微调实验。

背景与挑战

背景概述

该数据集由Ryan Greenblatt及Redwood Research于2026年创建，基于大规模多任务语言理解基准MMLU-Pro，旨在探究推理能力在跨领域任务中的泛化表现。研究团队利用Qwen3-8B模型对MMLU-Pro中的各学科问题生成带推理链的答案，并通过自蒸馏策略筛选出最终答案与标准答案一致的高质量样本。数据集涵盖生物学、数学、法律等14个学科，为评估模型在通用问答场景下的结构化推理能力提供了精细化的测试资源，同时可作为探索推理过程可迁移性的关键基础。

当前挑战

数据集面临的核心挑战包括：1) 领域问题层面，需要从复杂多选回答中准确提取模型推理轨迹及最终答案，并应对各学科知识深度的显著差异；2) 构建过程中，各学科样本的保留率极不均衡（如数学保留率约95%，法律仅约41%），导致最终数据集呈现严重的学科分布偏差，可能影响跨领域泛化结论的可靠性；3) 需要设计鲁棒的字母答案提取规则，以处理模型输出中多种回答格式（如\boxed{}、'answer is X'等）的兼容性问题，同时防范因截断导致的不完整推理样本混入。

常用场景

经典使用场景

在通用知识与推理能力评估的交叉领域，answers-with-reasoning-mmlu-pro数据集作为一项精心构建的资源，主要用于度量与提升大规模语言模型在复杂问答任务中的推理链条生成能力。该数据集基于MMLU-Pro这一涵盖生物学、商学、化学、计算机科学、经济学等14个学科的多选题基准，通过自蒸馏技术从Qwen3-8B模型中采样得到与标准答案匹配的推理轨迹。研究者常利用该数据集的完整推理过程与最终答案对应关系，进行监督微调、思维链蒸馏或推理能力对齐等实验，以探索模型在跨领域泛化场景下如何产生可信且可解释的推理步骤。

实际应用

在实际应用层面，该数据集可直接服务于教育科技领域的智能问答系统开发，构建能输出结构化思考过程的辅导型AI助手。例如，可用于训练在物理、数学等学科中提供分步解析的虚拟教师，或用于法律、医学等专业领域的知识问答系统，帮助用户理解复杂概念和决策依据。同时，该数据集还可用于增强客服机器人的逻辑推理链路，使其在面对多选项问题时不仅给出答案，还能呈现背后的思考过程，提升用户信任度。此外，过滤后的正确推理数据可用于自动批改系统，作为参考答案生成的基础素材。

衍生相关工作

围绕这一数据集衍生出多项开创性工作，其中最直接的是其所属的“试图努力”计划下的三兄弟数据集，分别覆盖通用问答、数学和编程三个领域，为跨域推理泛化研究提供了统一框架。基于这些数据，研究者开展了关于推理能力是否能在不同认知任务间迁移的实证分析，揭示了模型在特定领域（如数学）的推理优势可能无法自然迁移到其他领域的局限性。此外，该数据集催生了一系列关于思维链自蒸馏与自我反思机制的研究，探索如何从单一模型生成的高质量推理轨迹中提取可泛化的推理模板，以及如何通过推理链长度与深度的控制来优化模型表现。

以上内容由遇见数据集搜集并总结生成