hotpotqa-dev-olmo-3-7b-instruct-temp0.9-samples99-logprobs

Name: hotpotqa-dev-olmo-3-7b-instruct-temp0.9-samples99-logprobs
Creator: s-nlp
Published: 2026-04-01 18:33:01
License: 暂无描述

Hugging Face2026-04-01 更新2026-04-02 收录

下载链接：

https://huggingface.co/datasets/s-nlp/hotpotqa-dev-olmo-3-7b-instruct-temp0.9-samples99-logprobs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含针对HotpotQA验证集的每个问题生成的99个自一致性完成样本，使用`allenai/OLMo-3-7B-Instruct`模型在温度为`0.9`的条件下生成，并附有每个完成样本的令牌级对数概率。数据集旨在用于事后分析、自一致性曲线、自适应停止及相关聚合方法的研究。数据来源于`hotpotqa/hotpot_qa`基准测试的`distractor`和`validation`部分，采用温度采样解码方式，参数为`num_samples=99`和`top_p=0.8`，并通过事后HotpotQA答案匹配进行评分。数据集包含多个文件，其中parquet文件包含`question`、`question_id`、`possible_answers`、`all_completions`、`final_answer`和`all_logprobs`等字段。此外，README还提供了不同聚合变体的性能比较，显示归一化多数投票方法表现最佳。

This dataset contains 99 self-consistency completion samples generated for every question in the HotpotQA validation set. These samples were produced using the `allenai/OLMo-3-7B-Instruct` model with a temperature set to 0.9, and each sample is accompanied by its token-level log probabilities. The dataset is designed for research on post-hoc analysis, self-consistency curves, adaptive stopping, and related aggregation methodologies. It is sourced from the `distractor` and `validation` splits of the `hotpotqa/hotpot_qa` benchmark, and was generated via temperature-sampling decoding with parameters `num_samples=99` and `top_p=0.8`. All samples are scored through post-hoc HotpotQA answer matching. The dataset includes multiple files, with the Parquet files containing fields including `question`, `question_id`, `possible_answers`, `all_completions`, `final_answer`, and `all_logprobs`. Additionally, the accompanying README provides performance comparisons across different aggregation variants, showing that the normalized majority voting method delivers the best performance.

提供机构：

s-nlp

创建时间：

2026-04-01

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，对模型生成答案的可靠性与一致性进行评估是提升问答系统性能的关键环节。本数据集基于HotpotQA验证集，采用allenai/OLMo-3-7B-Instruct模型，通过温度采样策略生成多样化的答案序列。具体构建过程中，每个问题均采样99个生成结果，并记录每个生成序列的令牌级对数概率，从而为后续的自我一致性分析提供详实的数据基础。

特点

该数据集的核心特征在于其丰富的生成多样性及详尽的概率记录。每个问题对应99个独立生成的答案，覆盖了模型在给定温度参数下的广泛输出空间。同时，数据集不仅包含原始生成文本，还精确记录了每个生成序列的令牌级对数概率，为深入分析模型置信度与答案质量之间的关系提供了可能。这种设计使得研究者能够从多个维度评估生成结果的稳定性与可靠性。

使用方法

本数据集主要服务于后验分析与聚合方法研究。使用者可通过解析包含问题、生成答案及对数概率的Parquet文件，进行自我一致性曲线绘制、自适应停止策略探索以及多种答案聚合方法的比较。例如，可基于对数概率评估不同采样策略下答案的置信度分布，或通过多数投票等聚合技术提升最终答案的准确性。数据集附带的详细指标文件为方法对比提供了量化依据。

背景与挑战

背景概述

在自然语言处理领域，问答系统的评估与优化一直是核心研究议题之一。HotpotQA数据集于2018年由斯坦福大学的研究团队推出，旨在通过多跳推理问题挑战模型对分散信息的综合理解能力。该数据集要求模型从多个文档中提取并整合答案，推动了阅读理解技术向复杂推理方向发展。作为衍生数据集，hotpotqa-dev-olmo-3-7b-instruct-temp0.9-samples99-logprobs由艾伦人工智能研究所于2024年构建，基于OLMo-3-7B-Instruct模型对HotpotQA验证集进行自洽性生成，专注于后验分析与聚合方法研究，为模型置信度校准与自适应决策提供了关键数据支持。

当前挑战

该数据集所针对的多跳问答任务面临多重挑战：模型需在分散的文本片段中进行逻辑推理，准确追踪实体关系，并克服噪声信息的干扰。构建过程中，生成99个自洽样本涉及高温采样策略，可能导致输出多样性过高而影响答案一致性；同时，对数概率的逐词记录增加了数据存储与处理的复杂性，且答案归一化对最终评估结果敏感，细微差异易引发性能波动。这些挑战凸显了复杂推理任务中平衡生成多样性与答案精确性的核心难题。

常用场景

经典使用场景

在自然语言处理领域，特别是在问答系统研究中，该数据集为模型输出的多样性和可靠性分析提供了关键支持。它通过记录OLMo-3.7B-Instruct模型在HotpotQA验证集上生成的99个自洽性答案及其对数概率，使得研究者能够深入探讨模型在复杂多跳推理任务中的表现。这一设计使得数据集成为评估和优化自洽性聚合方法的理想平台，为模型输出的稳定性与准确性研究奠定了数据基础。

实际应用

在实际应用中，该数据集可用于构建更智能的问答系统，特别是在需要高可靠性的领域如教育辅助、信息检索和客户服务。通过分析模型生成的多答案样本及其概率分布，开发者能够设计自适应策略，动态调整输出以平衡速度与准确性。此外，它还为工业界提供了模型部署前的验证工具，帮助评估和改善生成式AI在复杂查询下的表现，从而提升终端用户体验。

衍生相关工作

该数据集衍生了一系列关于自洽性聚合和模型校准的经典研究。例如，基于其对数概率数据，研究者开发了更高效的自适应停止算法，以减少计算开销同时保持答案质量。此外，它还被用于探索后验评分方法，如多数投票与归一化策略的比较，这些工作进一步推动了语言模型在推理任务中的优化，并为后续的基准测试和评估框架提供了重要参考。

以上内容由遇见数据集搜集并总结生成