s-nlp/hotpotqa-dev-olmo-3-7b-instruct-temp0.9-samples99-logprobs
收藏Hugging Face2026-04-01 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/s-nlp/hotpotqa-dev-olmo-3-7b-instruct-temp0.9-samples99-logprobs
下载链接
链接失效反馈官方服务:
资源简介:
---
pretty_name: OLMo-3-7B-Instruct self-consistency generations with logprobs on HotpotQA
dataset_type: text
task_categories:
- question-answering
language:
- en
---
# OLMo-3-7B-Instruct self-consistency generations with logprobs on HotpotQA
This dataset contains 99 self-consistency generations per question for the
HotpotQA validation split, produced with `allenai/OLMo-3-7B-Instruct` at
temperature `0.9`, together with token-level log probabilities for each
completion.
The file is intended for post-hoc analysis, self-consistency curves, adaptive
stopping, and related aggregation methods.
## Source
- Base benchmark: `hotpotqa/hotpot_qa` (`distractor`, `validation`)
- Model: `allenai/OLMo-3-7B-Instruct`
- Decoding: temperature sampling, `num_samples=99`, `top_p=0.8`
- Scoring: post-hoc HotpotQA answer matching on the extracted short answer
## Metrics
HotpotQA is sensitive to answer normalization, so we report a small
comparison of aggregation variants rather than a single raw majority score:
- `SC@1 / first extracted = 0.237272113436867`
- `SC@99 raw majority = 0.26914247130317354`
- `SC@99 normalized majority = 0.2698176907494936`
The normalized majority is the best of the tested variants, but the gain over
raw majority is small.
## Files
- `predictions/predictions.parquet`
- `metrics.json`
- `metrics_sc1_sc99.json` (detailed variant comparison)
The parquet includes:
- `question`
- `question_id`
- `possible_answers`
- `all_completions`
- `final_answer`
- `all_logprobs`
`all_logprobs` is a nested list of token log probabilities for each sampled
completion.
## Notes
- This is a post-hoc scored artifact, not a re-generated benchmark split.
- The saved data is mainly useful for comparing aggregation methods and
adaptive policies.
提供机构:
s-nlp
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,对大型语言模型进行后验分析是评估其推理能力的关键环节。本数据集基于HotpotQA验证集,利用allenai/OLMo-3-7B-Instruct模型,采用温度参数0.9的采样策略,为每个问题生成了99条自洽性生成序列。解码过程中设置了top_p值为0.8以控制生成多样性,并通过后验答案匹配机制提取简短答案,同时完整保留了每个生成序列的词元级对数概率数据。
特点
该数据集的核心价值在于其丰富的生成多样性与完整的概率记录。每个问题对应的99条生成序列为研究自洽性曲线和自适应停止策略提供了充分的数据基础,嵌套存储的词元对数概率矩阵使研究者能够深入分析模型生成过程中的不确定性分布。数据集特别提供了经过答案标准化处理与原始多数投票的对比指标,揭示了不同聚合方法对最终性能的细微影响,为后续研究提供了多维度的评估参照。
使用方法
研究者可通过解析parquet格式文件获取完整的生成序列与概率数据,其中包含问题标识、候选答案、全部生成文本及对应对数概率等结构化字段。该数据集主要适用于后验分析方法研究,包括自洽性聚合策略的对比实验、自适应停止算法的验证以及生成不确定性的可视化分析。配套的指标文件详细记录了不同聚合变体的性能差异,为方法比较提供了量化依据,使用者可基于此开展模型校准与推理优化等相关研究。
背景与挑战
背景概述
HotpotQA数据集由斯坦福大学自然语言处理研究团队于2018年创建,旨在推动多跳问答系统的发展。该数据集的核心研究问题聚焦于模型对分散在多个文档中的信息进行推理与整合的能力,挑战了传统单文档问答的局限性。通过提供需要跨段落逻辑推理的问题,HotpotQA显著提升了问答系统在复杂语境下的理解深度,成为评估模型推理性能的重要基准,对自然语言处理领域的知识推理研究方向产生了深远影响。
当前挑战
HotpotQA数据集所解决的核心领域问题在于多跳问答,其挑战主要体现为模型需在多个相关文档间建立连贯的逻辑链条,以准确推断答案,这对模型的语义理解和推理能力提出了较高要求。在构建过程中,数据集的挑战涉及确保问题设计的复杂性与多样性,以及标注高质量的多跳推理路径,同时需维持答案的精确性与一致性,这些因素共同增加了数据收集与验证的难度。
常用场景
经典使用场景
在自然语言处理领域,大规模语言模型的自洽性评估已成为衡量模型推理能力的关键环节。该数据集通过为HotpotQA验证集中的每个问题生成99个自洽性样本,并附带每个生成的令牌级对数概率,为研究者提供了一个丰富的分析平台。其经典使用场景聚焦于后验分析,例如绘制自洽性曲线或实施自适应停止策略,以深入探究模型在复杂问答任务中的稳定性与一致性表现。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在自洽性聚合方法的创新上。例如,研究者基于其多样本生成数据提出了改进的归一化投票机制,以提升HotpotQA任务中的答案匹配精度。同时,该数据集也催生了针对自适应解码策略的系列研究,如动态温度调整或早期停止技术,这些工作进一步推动了语言模型高效推理框架的发展。
数据集最近研究
最新研究方向
在开放域问答领域,基于大型语言模型的自洽性推理正成为提升复杂问题解答准确性的关键路径。该数据集聚焦于HotpotQA验证集,通过OLMo-3-7B-Instruct模型在温度采样下生成多路径答案序列,并附带逐词对数概率,为后验分析提供了精细数据支持。前沿研究围绕自洽性曲线优化、自适应停止策略以及概率聚合方法展开,旨在克服传统多数投票的局限性,探索归一化处理对答案匹配敏感性的影响。这些工作不仅推动了模型推理过程的可解释性,也为动态解码策略的设计奠定了实证基础,对增强多跳问答系统的鲁棒性具有显著意义。
以上内容由遇见数据集搜集并总结生成



