mmlu-pro-olmo-3-7b-instruct-temp0.9-samples99-logprobs
收藏Hugging Face2026-04-01 更新2026-04-02 收录
下载链接:
https://huggingface.co/datasets/s-nlp/mmlu-pro-olmo-3-7b-instruct-temp0.9-samples99-logprobs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含针对MMLU-Pro测试集的99个自一致性生成结果,每个问题均附带完成时的令牌级对数概率。数据由`allenai/OLMo-3-7B-Instruct`模型在温度参数`0.9`下生成,适用于事后分析、自一致性曲线、自适应停止及相关聚合方法。数据集来源包括基准测试`TIGER-Lab/MMLU-Pro`和模型`allenai/OLMo-3-7B-Instruct`,解码参数为`num_samples=99`和`top_p=0.8`。数据集文件为Parquet格式,包含问题ID、问题内容、选项、可能答案、所有完成结果、最终答案及所有对数概率。数据集的准确率、F1分数和精确匹配率均为0.596908244680851。
This dataset contains 99 self-consistency generation results for the MMLU-Pro test set, with token-level log probabilities of the completion attached to each question. Generated by the `allenai/OLMo-3-7B-Instruct` model with a temperature parameter of 0.9, this dataset is suitable for post-hoc analysis, self-consistency curves, adaptive stopping, and related aggregation methods. The dataset sources include the benchmark `TIGER-Lab/MMLU-Pro` and the model `allenai/OLMo-3-7B-Instruct`, with decoding parameters set to `num_samples=99` and `top_p=0.8`. The dataset files are in Parquet format, containing question ID, question content, options, candidate answers, all completion results, final answers, and all log probabilities. The accuracy, F1 score, and exact match rate of this dataset are all 0.596908244680851.
提供机构:
s-nlp
创建时间:
2026-04-01
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,大规模多任务语言理解(MMLU)的扩展版本MMLU-Pro为模型评估提供了更具挑战性的基准。本数据集基于MMLU-Pro测试集,采用allenai/OLMo-3-7B-Instruct模型,通过温度采样策略生成多样化的回答。具体而言,每个问题均以温度参数0.9和top_p值0.8进行解码,生成99个独立样本,同时记录每个生成序列的令牌级对数概率,形成包含完整生成轨迹与概率信息的结构化数据。
使用方法
本数据集专为后验分析与高级聚合方法设计,可直接用于探索自洽性投票、LLMAgg等算法。研究者可通过解析Parquet文件中的all_completions与all_logprobs字段,实施多数投票或基于概率的自适应集成策略。由于答案已规范化为单一字母选项,评估时可直接采用精确匹配指标,无需额外预处理,为模型行为分析与性能优化提供了便捷的实验基础。
背景与挑战
背景概述
在人工智能领域,大规模多任务语言理解(MMLU)基准测试已成为评估语言模型综合能力的重要工具。MMLU-Pro作为其扩展版本,由TIGER-Lab团队于近年推出,旨在通过更复杂、更具挑战性的多选题,深入检验模型在专业学科知识上的推理与理解水平。该数据集聚焦于提升模型在真实学术场景下的问题解决能力,推动了语言模型从通用对话向专业领域应用的演进。基于此,研究人员利用OLMo-3-7B-Instruct模型,以温度采样技术生成多轮自洽响应,并记录词元级对数概率,为后续的聚合分析与自适应方法提供了关键数据支持。
当前挑战
MMLU-Pro数据集所针对的核心挑战在于如何准确评估语言模型在跨学科、高难度多选题上的深层推理能力,这要求模型不仅需掌握广泛的专业知识,还需具备逻辑连贯性与答案一致性。在构建过程中,生成多样化且高质量的自洽响应样本面临显著困难,包括平衡温度采样中的探索与利用、确保对数概率的可靠计算以支持后续聚合分析,以及处理答案归一化与评估指标的一致性。这些挑战直接关系到模型性能的稳健衡量与先进聚合方法(如自适应停止)的有效实施。
常用场景
经典使用场景
在大型语言模型评估领域,该数据集为MMLU-Pro基准测试提供了丰富的生成样本与概率信息,其核心应用在于支持自洽性分析。通过为每个问题生成99个多样化答案并记录逐词对数概率,研究者能够深入探究模型在复杂多选题上的推理一致性,为模型校准与置信度估计提供实证基础。这一设计使得数据集成为评估语言模型不确定性、稳定性及决策过程透明度的关键工具,尤其适用于需要精细分析生成多样性与模型内部动态的研究场景。
解决学术问题
该数据集主要针对大型语言模型在知识密集型任务中的可靠性评估问题,通过提供大量带概率标注的生成样本,助力解决模型自洽性量化、自适应停止策略优化以及后验聚合方法验证等学术挑战。它使得研究者能够系统分析模型在不同温度采样下的输出分布,从而深化对模型置信度与准确率关联的理解,推动不确定性建模、鲁棒性评估及决策可解释性等前沿方向的发展,为构建更可信赖的语言智能系统提供数据支撑。
实际应用
在实际应用中,该数据集可服务于语言模型部署前的性能诊断与优化流程。工程团队能够利用其丰富的生成样本与概率数据,开发动态投票机制或自适应解码策略,以提升模型在医疗咨询、法律问答或教育评估等高风险领域中的输出稳定性与准确性。此外,它也为企业级模型监控系统提供了基准参照,帮助识别模型在特定知识领域的薄弱环节,从而指导有针对性的微调或数据增强,增强实际应用中的可靠性与用户信任。
数据集最近研究
最新研究方向
在大型语言模型评估领域,MMLU-Pro作为多学科知识推理基准,正推动着模型自我一致性生成与后验概率分析的前沿探索。基于OLMo-3-7B-Instruct模型在温度采样下生成的99个自洽性答案及其词元级对数概率,研究聚焦于自适应聚合方法的优化,如动态停止策略与多数投票机制的融合,以提升模型在复杂选择题中的稳健性。这一方向不仅关联到模型校准与不确定性量化的热点议题,更通过可解释的概率分布数据,为黑盒语言模型的决策过程提供了微观洞察,对推动可靠、高效的人工智能系统发展具有关键意义。
以上内容由遇见数据集搜集并总结生成



