MMLU-Pro-engineering-outputs

Hugging Face2025-08-05 更新2025-08-06 收录

下载链接：

https://huggingface.co/datasets/eewer/MMLU-Pro-engineering-outputs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了从TIGER-Lab/MMLU-Pro工程类别中抽取的问题及其通过不同模型生成的答案。数据集特征包括问题ID、问题文本、多选答案选项、正确答案文本、正确答案索引、问题来源、模型输出ID、模型名称、模型采样参数、工具信息列表、消息列表、答案正确性标记、对话总token数（使用Qwen3 tokenizer）、原始对话总token数（使用原始模型tokenizer）和对话中工具调用次数。数据集分为训练集和测试集。

创建时间：

2025-07-25

原始信息汇总

数据集概述

基本信息

许可证: MIT
下载大小: 101758070 bytes
数据集大小: 367392628.69029605 bytes

数据集结构

训练集:
- 样本数量: 26069
- 大小: 367318435.69029605 bytes
测试集:
- 样本数量: 100
- 大小: 74193 bytes

特征描述

特征名称	类型	描述
`question_id`	int64	每个问题的唯一标识符。
`question`	string	问题的文本内容。
`options`	list of string	问题的多项选择答案选项。
`answer`	string	问题的正确答案文本。
`answer_index`	int64	正确答案在`options`列表中的索引（从零开始）。
`src`	string	问题的来源或出处（如数据集名称或URL）。
`output_id`	int64	与该问题相关的模型输出标识符，用于跟踪结果。
`model`	string	生成或回答问题的模型的名称或标识符。
`sampling_params`	dict	模型使用的采样参数。
`tools`	list of dict	工具列表，每个工具包含`function`和`type`信息。
`messages`	list of dict	消息列表，每条消息包含`role`、`content`、`reasoning`等信息。
`grade`	boolean	LLM的答案是否正确。
`total_tokens`	int64	对话的总令牌数（使用`Qwen3`分词器）。
`original_total_tokens`	int64	对话的总令牌数（使用原始模型的分词器）。
`num_tool_calls`	int64	对话中的工具调用次数。

数据来源

问题来源于TIGER-Lab/MMLU-Pro的工程类别。
输出来自以下LLM模型：
- deepseek-ai/DeepSeek-R1（model列为"deepseek-reasoner"）
- moonshotai/Kimi-K2-Instruct（model列为"moonshotai/kimi-k2"）
- Qwen/Qwen3-235B-A22B-Instruct-2507（model列为"qwen/qwen3-235b-a22b-2507"）

输出评分

LLM输出使用以下函数进行评分： python def grade(response: str, answer: str) -> bool: def extract_answer(text: str) -> Optional[str]: pattern = r"answer is (?([A-J]))?" match = re.search(pattern, text) if match: return match.group(1) else: return extract_again(text)

def extract_again(text: str) -> Optional[str]:
    match = re.search(r".*[aA]nswer:s*([A-J])", text)
    if match:
        return match.group(1)
    else:
        return extract_final(text)

def extract_final(text: str) -> Optional[str]:
    pattern = r"[A-J](?!.*[A-J])"
    match = re.search(pattern, text, re.DOTALL)
    if match:
        return match.group(0)
    else:
        return None

pred = extract_answer(response)
if pred is None:
    return False
else:
    return pred.strip().upper() == answer.strip().upper()

搜集汇总

数据集介绍

构建方式

MMLU-Pro-engineering-outputs数据集基于工程学科领域的专业问题构建，其核心数据来源于TIGER-Lab/MMLU-Pro的工程类别题库。通过整合多个先进大语言模型（包括deepseek-ai/DeepSeek-R1、moonshotai/Kimi-K2-Instruct和Qwen/Qwen3-235B-A22B-Instruct-2507）的生成结果，采用标准化评估函数对模型输出进行精确评分。数据采集过程严格记录模型参数、工具调用细节及对话交互全流程，形成结构化特征体系。

使用方法

研究者可通过HuggingFace datasets库直接加载数据集，调用load_dataset函数指定'eewer/MMLU-Pro-engineering-outputs'即可获取结构化数据。该数据集适用于大语言模型在工程领域的性能评估、工具调用行为分析和多轮对话机制研究。特征字段中的sampling_params和tools信息支持模型参数优化研究，而完整的消息序列则为可解释性分析提供素材。测试集可用于模型泛化能力验证，评分函数模板可直接复用于同类评估任务。

背景与挑战

背景概述

MMLU-Pro-engineering-outputs数据集是近年来由TIGER-Lab团队构建的一项重要资源，专注于工程领域的多模态语言理解任务。该数据集基于MMLU-Pro的工程类别问题，整合了来自多个先进大语言模型（如DeepSeek-R1、Kimi-K2-Instruct和Qwen3-235B-A22B-Instruct-2507）的输出结果，旨在为研究者提供丰富的模型响应数据以评估和提升模型在工程领域的推理能力。其核心研究问题聚焦于如何通过工具调用和复杂推理过程，提升大语言模型在专业工程问题上的准确性和可靠性。该数据集的创建标志着工程知识自动化处理的重要进展，为后续研究提供了宝贵的基准。

当前挑战

该数据集面临的主要挑战体现在两个方面：领域问题方面，工程领域的专业性问题往往涉及复杂的逻辑推理和工具调用，如何准确评估模型在这些问题上的表现仍是一个开放性问题；数据构建方面，整合不同模型的输出并确保评分的公平性和一致性需要精细的设计，例如响应文本中答案提取的模糊性可能导致评分偏差。此外，多工具调用场景下的token计数和参数记录也增加了数据处理的复杂度，这些挑战为后续研究提供了改进方向。

常用场景

经典使用场景

在工程学科领域，MMLU-Pro-engineering-outputs数据集为研究者提供了一个标准化的基准测试平台，用于评估大型语言模型在工程知识问答任务中的表现。该数据集通过精心设计的工程类问题及其对应的多选答案，为模型性能的量化分析提供了可靠依据。研究者可以基于该数据集进行模型推理能力、知识覆盖度以及工具调用效率的系统性评测。

解决学术问题

该数据集有效解决了工程教育领域智能化评估的关键问题。通过标准化的问答对和详细的模型输出记录，研究者能够深入分析语言模型在工程知识理解、逻辑推理以及工具使用等方面的能力边界。数据集提供的评分机制进一步量化了模型输出与标准答案的匹配程度，为模型优化提供了明确方向。

实际应用

在工程教育智能化转型中，该数据集为自适应学习系统的开发提供了重要支撑。教育科技公司可利用该数据集训练智能辅导系统，实现对学生工程知识掌握程度的精准评估。同时，企业研发部门也可基于该数据集构建内部知识问答系统，提升工程师的技术支持效率。

数据集最近研究