s-nlp/popqa-olmo-3-7b-instruct-temp0.9-samples99-logprobs

Name: s-nlp/popqa-olmo-3-7b-instruct-temp0.9-samples99-logprobs
Creator: s-nlp
Published: 2026-04-01 10:38:37
License: 暂无描述

Hugging Face2026-04-01 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/s-nlp/popqa-olmo-3-7b-instruct-temp0.9-samples99-logprobs

下载链接

链接失效反馈

官方服务：

资源简介：

--- pretty_name: OLMo-3-7B-Instruct self-consistency generations with logprobs on PopQA feature_names: - question - possible_answers - all_completions - final_answer - all_logprobs language: - en task_categories: - question-answering dataset_type: text --- # OLMo-3-7B-Instruct self-consistency generations with logprobs on PopQA This dataset contains 99 self-consistency generations per question for the PopQA benchmark, produced with `allenai/OLMo-3-7B-Instruct` at temperature `0.9`, together with token-level log probabilities for each completion. The file is intended for post-hoc analysis, self-consistency curves, adaptive stopping, and related aggregation methods. ## Source - Base benchmark: `PopQA` - Model: `allenai/OLMo-3-7B-Instruct` - Decoding: temperature sampling, `num_samples=99`, `top_p=0.8` - Scoring: post-hoc answer matching with the current `in_acc` evaluator ## Metrics For the saved full `temp0.9_samples99` run: - `in_acc(final_answer) = 0.17579581301978778` - `in_acc(raw majority over completions) = 0.18698021221680527` ## Files - `predictions/predictions.parquet` - `predictions/predictions.csv` - `metrics.json` The parquet includes: - `id` - `subj` - `prop` - `obj` - `subj_id` - `prop_id` - `obj_id` - `s_aliases` - `o_aliases` - `s_uri` - `o_uri` - `s_wiki_title` - `o_wiki_title` - `s_pop` - `o_pop` - `question` - `possible_answers` - `ddg_search_results` - `all_completions` - `final_answer` - `all_logprobs` `all_logprobs` is a nested list of token log probabilities for each sampled completion. ## Notes - This is a post-hoc scored artifact, not a re-generated benchmark split. - The saved predictions are suitable for majority vote, LLMAgg, and adaptive methods that need access to per-sample log probabilities. - Raw majority is slightly better than the stored `final_answer` field for this run, so both values are recorded above for transparency.

提供机构：

s-nlp

搜集汇总

数据集介绍

构建方式

在知识密集型问答领域，为深入探究大型语言模型的自洽性生成能力，该数据集基于PopQA基准，采用allenai/OLMo-3-7B-Instruct模型，通过温度采样策略构建而成。具体而言，针对每个问题，模型在温度参数设置为0.9、top_p为0.8的条件下，独立生成了99个自洽性答案样本，并同步记录了每个生成序列的令牌级对数概率。这一构建过程旨在捕获模型在解码过程中的概率分布细节，为后续的聚合分析与方法评估提供结构化数据支持。

特点

该数据集的核心特征在于其详尽记录了模型多次生成过程中的概率轨迹。除了包含问题、候选答案及最终聚合答案等基础字段外，其独特之处在于保留了所有99个生成序列的完整文本及其对应的对数概率列表。这种设计使得研究者能够深入分析模型输出的不确定性，并支持基于自洽性曲线、自适应停止策略或后验聚合方法（如多数投票或LLMAgg）的实证研究。数据集以Parquet和CSV格式提供，确保了数据的高效存取与处理灵活性。

使用方法

该数据集主要服务于对语言模型生成行为进行后验分析的科研场景。研究人员可借助包含的all_completions与all_logprobs字段，实施自洽性评估，绘制性能随样本数量变化的曲线，或开发自适应停止算法以优化推理效率。同时，通过对比final_answer与原始多数投票结果，可验证不同答案聚合策略的有效性。使用时应结合PopQA基准的原始评估框架，并注意该数据集为静态生成结果，适用于方法验证与分析，而非作为基准数据集的重新划分。

背景与挑战

背景概述

在大型语言模型（LLM）研究领域，评估模型在知识密集型问答任务上的性能是衡量其推理与事实检索能力的关键。PopQA作为一项开放域问答基准，专注于测试模型对现实世界实体相关事实的掌握程度，由艾伦人工智能研究所等机构的研究人员构建，旨在推动模型在无需特定领域微调下的泛化性能。数据集popqa-olmo-3-7b-instruct-temp0.9-samples99-logprobs则基于PopQA，利用OLMo-3-7B-Instruct模型通过自洽性采样生成多组回答，并记录词元级对数概率，为后验分析提供细粒度数据支持，有助于深入探究模型的不确定性与决策机制。

当前挑战

该数据集所针对的开放域问答任务面临多重挑战：模型需从海量知识中准确检索并推理出实体相关事实，同时处理语义歧义与答案多样性问题。在构建过程中，挑战主要体现在通过温度采样生成高多样性回答时，如何平衡探索与利用，确保采样覆盖足够答案空间；此外，记录词元级对数概率增加了计算与存储复杂度，且后验评分需设计稳健的聚合方法（如多数投票或自适应停止）以提升最终答案的准确性与可解释性。

常用场景

经典使用场景

在开放域问答研究领域，该数据集为模型自洽性分析提供了关键资源。通过为每个问题生成99个多样化样本，并附带详细的词元级对数概率，它支持对大型语言模型在知识密集型任务中的输出稳定性进行深入探究。研究人员能够利用这些数据绘制自洽性曲线，评估模型在不同采样条件下的表现一致性，从而揭示模型内部推理机制的可信度与局限性。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在后验聚合与采样效率优化方向。例如，基于自洽性曲线的自适应停止方法能够动态确定采样规模，平衡计算成本与准确率；LLMAgg等对数概率加权投票技术则利用概率信息提升多数表决的鲁棒性。这些研究不仅深化了对模型不确定性的理解，也为高效推理框架的设计提供了方法论支持。

数据集最近研究