s-nlp/mmlu-pro-olmo-3-7b-instruct-temp0.9-samples99-logprobs

Name: s-nlp/mmlu-pro-olmo-3-7b-instruct-temp0.9-samples99-logprobs
Creator: s-nlp
Published: 2026-04-01 10:32:59
License: 暂无描述

Hugging Face2026-04-01 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/s-nlp/mmlu-pro-olmo-3-7b-instruct-temp0.9-samples99-logprobs

下载链接

链接失效反馈

官方服务：

资源简介：

--- pretty_name: OLMo-3-7B-Instruct self-consistency generations with logprobs on MMLU-Pro dataset_type: text task_categories: - question-answering language: - en --- # OLMo-3-7B-Instruct self-consistency generations with logprobs on MMLU-Pro This dataset contains 99 self-consistency generations per question for the MMLU-Pro test split, produced with `allenai/OLMo-3-7B-Instruct` at temperature `0.9`, together with token-level log probabilities for each completion. The file is intended for post-hoc analysis, self-consistency curves, adaptive stopping, and related aggregation methods. ## Source - Base benchmark: `TIGER-Lab/MMLU-Pro` - Model: `allenai/OLMo-3-7B-Instruct` - Decoding: temperature sampling, `num_samples=99`, `top_p=0.8` - Scoring: post-hoc exact-match on the extracted answer letter ## Metrics For the saved full `temp0.9_samples99` run: - `accuracy = 0.596908244680851` - `f1 = 0.596908244680851` - `exact_match = 0.596908244680851` ## Files - `predictions/predictions.parquet` The parquet includes: - `question_id` - `question` - `options` - `possible_answers` - `all_completions` - `final_answer` - `all_logprobs` `all_logprobs` is a nested list of token log probabilities for each sampled completion. ## Notes - This is a post-hoc scored artifact, not a re-generated benchmark split. - The extracted answer is normalized to a single letter `A-J`. - The saved predictions are suitable for majority vote, LLMAgg, and adaptive methods that need access to per-sample log probabilities.

提供机构：

s-nlp

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，大规模多任务语言理解基准的扩展版本MMLU-Pro为评估模型性能提供了更为复杂的测试环境。本数据集基于MMLU-Pro测试分割，采用allenai/OLMo-3-7B-Instruct模型，通过温度采样策略生成自我一致性样本。具体而言，每个问题均以温度参数0.9和top_p值0.8进行解码，生成99个独立样本，同时记录每个完成序列的令牌级对数概率，从而构建了一个包含丰富生成轨迹与概率信息的分析资源。

特点

该数据集的核心特征在于其深度整合了自我一致性生成与概率建模的双重维度。不仅提供了每个问题对应的99个多样化模型输出，还精确保留了每个生成序列的令牌级对数概率，使得研究者能够深入探究模型内部的不确定性与决策过程。此外，数据集经过后验精确匹配评分，准确率、F1分数与精确匹配率均达到0.5969，为分析模型在复杂多选任务上的表现提供了可靠基准。其结构化存储格式进一步支持多数投票、LLMAgg及自适应停止等高级聚合方法的直接应用。

使用方法

针对该数据集的应用，研究者可将其广泛用于后验分析、自我一致性曲线绘制以及自适应停止策略的探索。通过解析parquet文件中的问题标识、选项、完整生成序列及其对应对数概率，用户能够实施多数投票机制以提升预测稳定性，或利用令牌级概率信息开发动态停止算法。数据集特别适用于需要访问样本级概率信息的聚合方法，为模型决策透明度与鲁棒性研究提供了实质性的数据支撑。

背景与挑战

背景概述

在大型语言模型（LLM）的评估与优化领域，MMLU-Pro数据集作为MMLU（大规模多任务语言理解）的进阶版本，由TIGER-Lab团队构建，旨在通过更具挑战性的多项选择题，深入检验模型在复杂、专业领域知识上的推理与理解能力。该衍生数据集mmlu-pro-olmo-3-7b-instruct-temp0.9-samples99-logprobs，由AllenAI研究所的研究人员利用其开发的OLMo-3-7B-Instruct模型，在温度参数0.9下对MMLU-Pro测试集进行99次自洽性采样生成并记录词元级对数概率而创建。其核心研究问题聚焦于探索模型输出的不确定性量化、自洽性聚合方法的效能，以及如何通过后验分析提升模型在知识密集型任务中的可靠性与决策透明度，为自适应解码、置信度校准等前沿研究方向提供了关键的实验数据支撑。

当前挑战

该数据集所针对的核心领域挑战，在于如何精准评估并提升大型语言模型在复杂、歧义性高的专业领域问题上的鲁棒性与推理一致性。传统单一答案评估难以捕捉模型输出的内在不确定性，而自洽性采样与对数概率的记录，正是为了应对模型在零样本或小样本设置下可能产生的输出波动与置信度误判问题。在构建过程中，研究团队面临多重技术挑战：需在高温度采样下平衡生成多样性与答案质量，确保99次采样能有效覆盖模型的预测分布；同时，精确记录并结构化存储每个生成序列的词元级对数概率，以支持后续的聚合分析（如多数投票、LLMAgg等方法），这对数据处理的效率与完整性提出了较高要求。此外，答案归一化与后验精确匹配的流程也需精心设计，以保障评估指标的可靠性与可比性。

常用场景

经典使用场景

在大型语言模型评估领域，该数据集为MMLU-Pro基准测试提供了丰富的生成样本与概率信息，其核心应用在于支持后验分析与自洽性聚合方法的研究。通过记录OLMo-3.7B-Instruct模型在温度0.9下对每个问题生成的99个自洽性答案及其词元级对数概率，研究者能够深入探究模型在复杂多选题上的不确定性表现与决策过程，为模型校准与置信度评估提供实证基础。

实际应用

在实际应用中，该数据集可作为模型部署前的评估工具，用于测试大型语言模型在医学、法律、STEM等专业领域多选题上的稳定输出能力。工程团队可基于其提供的对数概率与多生成样本，开发自适应停止机制以平衡推理效率与准确性，或构建后验校准系统来提升模型在关键决策场景中的可信度，从而优化实际服务中的性能与资源分配。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在自洽性曲线分析与概率聚合算法的创新上。例如，研究者利用其多生成样本与对数概率特征，开发了基于置信度阈值的自适应停止方法，或探索了LLMAgg等后验聚合技术以提升模型在MMLU-Pro等基准上的表现。这些工作进一步推动了不确定性量化与模型集成领域的发展，为后续更高效的评估框架奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集