s-nlp/hotpotqa-dev-olmo-3-7b-instruct-temp0.9-samples99-logprobs

Name: s-nlp/hotpotqa-dev-olmo-3-7b-instruct-temp0.9-samples99-logprobs
Creator: s-nlp
Published: 2026-04-01 10:33:01
License: 暂无描述

Hugging Face2026-04-01 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/s-nlp/hotpotqa-dev-olmo-3-7b-instruct-temp0.9-samples99-logprobs

下载链接

链接失效反馈

官方服务：

资源简介：

--- pretty_name: OLMo-3-7B-Instruct self-consistency generations with logprobs on HotpotQA dataset_type: text task_categories: - question-answering language: - en --- # OLMo-3-7B-Instruct self-consistency generations with logprobs on HotpotQA This dataset contains 99 self-consistency generations per question for the HotpotQA validation split, produced with `allenai/OLMo-3-7B-Instruct` at temperature `0.9`, together with token-level log probabilities for each completion. The file is intended for post-hoc analysis, self-consistency curves, adaptive stopping, and related aggregation methods. ## Source - Base benchmark: `hotpotqa/hotpot_qa` (`distractor`, `validation`) - Model: `allenai/OLMo-3-7B-Instruct` - Decoding: temperature sampling, `num_samples=99`, `top_p=0.8` - Scoring: post-hoc HotpotQA answer matching on the extracted short answer ## Metrics HotpotQA is sensitive to answer normalization, so we report a small comparison of aggregation variants rather than a single raw majority score: - `SC@1 / first extracted = 0.237272113436867` - `SC@99 raw majority = 0.26914247130317354` - `SC@99 normalized majority = 0.2698176907494936` The normalized majority is the best of the tested variants, but the gain over raw majority is small. ## Files - `predictions/predictions.parquet` - `metrics.json` - `metrics_sc1_sc99.json` (detailed variant comparison) The parquet includes: - `question` - `question_id` - `possible_answers` - `all_completions` - `final_answer` - `all_logprobs` `all_logprobs` is a nested list of token log probabilities for each sampled completion. ## Notes - This is a post-hoc scored artifact, not a re-generated benchmark split. - The saved data is mainly useful for comparing aggregation methods and adaptive policies.

提供机构：

s-nlp

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，对大型语言模型进行后验分析是评估其推理能力的关键环节。本数据集基于HotpotQA验证集，利用allenai/OLMo-3-7B-Instruct模型，采用温度参数0.9的采样策略，为每个问题生成了99条自洽性生成序列。解码过程中设置了top_p值为0.8以控制生成多样性，并通过后验答案匹配机制提取简短答案，同时完整保留了每个生成序列的词元级对数概率数据。

特点

该数据集的核心价值在于其丰富的生成多样性与完整的概率记录。每个问题对应的99条生成序列为研究自洽性曲线和自适应停止策略提供了充分的数据基础，嵌套存储的词元对数概率矩阵使研究者能够深入分析模型生成过程中的不确定性分布。数据集特别提供了经过答案标准化处理与原始多数投票的对比指标，揭示了不同聚合方法对最终性能的细微影响，为后续研究提供了多维度的评估参照。

使用方法

研究者可通过解析parquet格式文件获取完整的生成序列与概率数据，其中包含问题标识、候选答案、全部生成文本及对应对数概率等结构化字段。该数据集主要适用于后验分析方法研究，包括自洽性聚合策略的对比实验、自适应停止算法的验证以及生成不确定性的可视化分析。配套的指标文件详细记录了不同聚合变体的性能差异，为方法比较提供了量化依据，使用者可基于此开展模型校准与推理优化等相关研究。

背景与挑战

背景概述

HotpotQA数据集由斯坦福大学自然语言处理研究团队于2018年创建，旨在推动多跳问答系统的发展。该数据集的核心研究问题聚焦于模型对分散在多个文档中的信息进行推理与整合的能力，挑战了传统单文档问答的局限性。通过提供需要跨段落逻辑推理的问题，HotpotQA显著提升了问答系统在复杂语境下的理解深度，成为评估模型推理性能的重要基准，对自然语言处理领域的知识推理研究方向产生了深远影响。

当前挑战

HotpotQA数据集所解决的核心领域问题在于多跳问答，其挑战主要体现为模型需在多个相关文档间建立连贯的逻辑链条，以准确推断答案，这对模型的语义理解和推理能力提出了较高要求。在构建过程中，数据集的挑战涉及确保问题设计的复杂性与多样性，以及标注高质量的多跳推理路径，同时需维持答案的精确性与一致性，这些因素共同增加了数据收集与验证的难度。

常用场景

经典使用场景

在自然语言处理领域，大规模语言模型的自洽性评估已成为衡量模型推理能力的关键环节。该数据集通过为HotpotQA验证集中的每个问题生成99个自洽性样本，并附带每个生成的令牌级对数概率，为研究者提供了一个丰富的分析平台。其经典使用场景聚焦于后验分析，例如绘制自洽性曲线或实施自适应停止策略，以深入探究模型在复杂问答任务中的稳定性与一致性表现。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在自洽性聚合方法的创新上。例如，研究者基于其多样本生成数据提出了改进的归一化投票机制，以提升HotpotQA任务中的答案匹配精度。同时，该数据集也催生了针对自适应解码策略的系列研究，如动态温度调整或早期停止技术，这些工作进一步推动了语言模型高效推理框架的发展。

数据集最近研究