HotpotQA

Name: HotpotQA
Creator: OpenDataLab
Published: 2026-05-17 03:30:03
License: 暂无描述

OpenDataLab2026-05-17 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/HotpotQA

下载链接

链接失效反馈

官方服务：

资源简介：

HotpotQA 是收集在英语维基百科上的问答数据集，包含大约 113K 众包问题，这些问题的构建需要两篇维基百科文章的介绍段落才能回答。数据集中的每个问题都带有两个黄金段落，以及这些段落中的句子列表，众包工作人员认为这些句子是回答问题所必需的支持事实。 HotpotQA 提供了多种推理策略，包括涉及问题中缺失实体的问题、交叉问题（什么满足属性 A 和属性 B？）和比较问题，其中两个实体通过一个共同属性进行比较等。在少文档干扰设置中，QA 模型有 10 个段落，保证能找到黄金段落；在开放域全维基设置中，模型只给出问题和整个维基百科。模型根据其答案准确性和可解释性进行评估，其中前者被测量为具有完全匹配 (EM) 和 unigram F1 的预测答案和黄金答案之间的重叠，后者关注预测的支持事实句子与人类注释的匹配程度（Supporting Fact EM/F1)。该数据集还报告了一个联合指标，它鼓励系统同时在两项任务上表现良好。来源：通过迭代查询生成回答复杂的开放域问题

HotpotQA is a question answering (QA) dataset curated from English Wikipedia, containing approximately 113K crowdsourced questions that require introductory paragraphs from two Wikipedia articles to be answered. Each question in the dataset is paired with two gold paragraphs and a list of sentences from these paragraphs that crowdworkers identify as supporting facts necessary to answer the query. HotpotQA covers diverse reasoning strategies, including questions involving missing entities in the query, cross-type questions (e.g., "what satisfies both attribute A and attribute B?"), and comparative questions where two entities are compared via a shared attribute, among others. In the low-document distraction setup, QA models are provided with 10 paragraphs, ensuring that the gold paragraphs are included; in the open-domain full Wikipedia setup, models are only given the question and the entire English Wikipedia corpus. Models are evaluated based on both answer accuracy and interpretability. The former is measured as the overlap between predicted and gold answers using Exact Match (EM) and unigram F1 scores, while the latter focuses on the degree of match between predicted supporting fact sentences and human annotations (Supporting Fact EM/F1). The dataset also reports a joint metric that encourages systems to perform well on both tasks. Source: Generating Complex Open-domain Question Answering via Iterative Querying

提供机构：

OpenDataLab

创建时间：

2022-05-23

搜集汇总

数据集介绍

构建方式

HotpotQA数据集的构建基于众包平台，通过精心设计的任务结构，要求参与者在回答问题的同时提供支持性证据。数据集涵盖了广泛的知识领域，包括科学、历史、文化等，旨在模拟人类在多步骤推理中获取信息的过程。每个问题都与多个段落相关联，参与者需要从这些段落中提取信息以构建完整的答案。

特点

HotpotQA数据集的显著特点在于其强调多跳推理能力，即通过多个信息源的链接来解答复杂问题。此外，数据集中的问题设计具有层次性，要求模型不仅能够识别相关信息，还需理解信息之间的逻辑关系。这种设计使得HotpotQA成为评估和提升自然语言处理系统在复杂推理任务中表现的重要工具。

使用方法

HotpotQA数据集主要用于训练和评估问答系统的多跳推理能力。研究者和开发者可以利用该数据集来构建和优化模型，使其能够在面对复杂问题时，通过分析多个相关段落来生成准确且有依据的答案。此外，HotpotQA还可用于测试模型的信息检索和文本理解能力，帮助识别和解决现有系统在处理复杂查询时的局限性。

背景与挑战

背景概述

HotpotQA数据集由Yang等人于2018年提出，旨在推动问答系统在复杂问题处理方面的能力。该数据集的构建基于多跳推理的需求，即系统需要通过多个步骤的信息检索和整合来回答问题。HotpotQA的引入填补了现有问答数据集中对于复杂推理任务的空白，为研究者提供了一个评估和改进问答系统的新平台。其影响力在于，它不仅促进了问答技术的发展，还为多跳推理机制的研究提供了宝贵的资源。

当前挑战

HotpotQA数据集在构建过程中面临的主要挑战包括：首先，如何设计问题以确保其需要多跳推理才能解答，这要求问题设计者具备深厚的领域知识和推理能力。其次，数据集的标注过程复杂，需要标注者不仅理解问题的含义，还要能够识别出解答问题所需的关键信息和推理路径。此外，数据集的规模和多样性也是一个挑战，确保数据集能够覆盖广泛的知识领域和推理类型，以提高问答系统的泛化能力。

发展历史

创建时间与更新

HotpotQA数据集由Yang等人于2018年创建，旨在推动多跳问答任务的发展。该数据集自创建以来，经历了多次更新，以适应不断变化的研究需求和技术进步。

重要里程碑

HotpotQA的发布标志着多跳问答领域的一个重要里程碑。它引入了复杂的多跳问题，要求模型不仅能够检索相关信息，还需要进行推理以得出最终答案。这一创新推动了问答系统在复杂性和准确性上的显著提升。此外，HotpotQA还提供了丰富的上下文信息和解释，使得研究者能够更好地评估和改进模型的推理能力。

当前发展情况

当前，HotpotQA已成为多跳问答研究中的基准数据集之一，广泛应用于各种自然语言处理任务中。其结构化的数据和多样的问答形式，为研究者提供了丰富的实验资源，促进了问答系统在复杂场景下的性能提升。同时，HotpotQA的不断更新和扩展，也反映了该领域对更高层次推理和理解能力的持续追求。通过HotpotQA，研究者们不仅能够验证现有模型的有效性，还能探索新的方法和技术，推动整个领域向前发展。

发展历程

HotpotQA首次发表于2018年，由Zhilin Yang等人提出，旨在提供一个多跳问答数据集，以测试机器理解复杂问题的能力。
2018年
HotpotQA在自然语言处理领域得到广泛应用，成为评估问答系统性能的重要基准之一。
2019年
研究者们开始利用HotpotQA数据集进行多跳推理模型的改进，推动了问答系统在复杂问题处理上的进步。
2020年
HotpotQA数据集的影响力进一步扩大，被纳入多个国际会议和竞赛中，促进了相关技术的交流与发展。
2021年

常用场景

经典使用场景

在自然语言处理领域，HotpotQA数据集以其多跳问答（multi-hop question answering）任务而闻名。该数据集要求模型不仅能够从单个文档中提取信息，还需要跨越多个文档进行推理，以回答复杂问题。例如，模型可能需要首先识别相关文档，然后在这些文档之间建立逻辑联系，最终生成准确的答案。这种多跳推理能力对于模拟人类阅读理解过程至关重要，尤其是在处理需要综合多源信息的复杂查询时。

实际应用

在实际应用中，HotpotQA数据集的多跳问答能力可以显著提升信息检索和知识管理的效率。例如，在法律咨询、医疗诊断和教育辅导等领域，用户常常需要获取跨越多个文档或数据库的综合信息。通过训练基于HotpotQA的问答系统，可以更准确地回答这些复杂查询，从而提高服务质量和用户满意度。此外，该数据集还可以应用于智能客服系统，帮助企业更有效地处理客户咨询。

衍生相关工作

HotpotQA数据集的发布激发了大量相关研究工作，特别是在多跳问答和文档级推理领域。例如，一些研究者提出了基于图神经网络（Graph Neural Networks）的方法，以更好地捕捉文档间的复杂关系。此外，还有工作探索了如何利用预训练语言模型（如BERT和GPT）来增强多跳问答系统的性能。这些衍生工作不仅丰富了问答系统的理论基础，还推动了实际应用中的技术革新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集