Natural Questions

Name: Natural Questions
Creator: OpenDataLab
Published: 2026-05-17 04:30:21
License: 暂无描述

OpenDataLab2026-05-17 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/Natural_Questions

下载链接

链接失效反馈

官方服务：

资源简介：

自然问题语料库是一个问答数据集，包含 307,373 个训练示例、7,830 个开发示例和 7,842 个测试示例。每个示例都由 google.com 查询和相应的 Wikipedia 页面组成。每个 Wikipedia 页面都有一个在回答问题的页面上注释的段落（或长答案），以及包含实际答案的注释段落的一个或多个短跨度。然而，长答案和短答案注释可以是空的。如果它们都是空的，那么页面上根本没有答案。如果长答案注释不为空，而短答案注释为空，则注释的段落回答了问题，但找不到明确的简短答案。最后，有 1% 的文档有一段用“是”或“否”的简短答案注释的段落，而不是短跨度列表。

The Natural Questions Corpus is a question answering dataset containing 307,373 training examples, 7,830 development examples, and 7,842 test examples. Each example consists of a Google.com query and its corresponding Wikipedia page. For each Wikipedia page, there is a paragraph (or long answer) annotated on the page that answers the question, as well as one or more short spans from the annotated paragraph that contain the actual answer. However, both the long answer and short answer annotations can be empty. If both are empty, then there is no answer at all on the page. If the long answer annotation is non-empty but the short answer annotation is empty, the annotated paragraph answers the question but no explicit short answer can be found. Finally, 1% of the documents have a paragraph annotated with a "yes" or "no" short answer instead of a list of short spans.

提供机构：

OpenDataLab

创建时间：

2022-08-16

搜集汇总

数据集介绍

构建方式

Natural Questions数据集的构建基于大规模的真实用户查询，通过Google搜索引擎的日志数据进行收集。该数据集的构建过程中，研究人员精心筛选了数百万条用户查询，并将其与维基百科页面进行匹配，以确保查询的准确性和相关性。此外，数据集还包含了用户查询的详细上下文信息，如查询时间、地理位置等，以提供更丰富的语境支持。

特点

Natural Questions数据集以其高质量和多样性著称，涵盖了广泛的主题和查询类型，从简单的信息检索到复杂的推理问题均有涉及。该数据集的独特之处在于其真实性和实用性，能够有效模拟用户在实际搜索中的需求和行为。此外，数据集的标注精细，每个查询都附有详细的答案段落和相关证据，便于研究人员进行深入分析和模型训练。

使用方法

Natural Questions数据集主要用于自然语言处理领域的问答系统研究，特别是开放域问答（Open-Domain Question Answering）任务。研究人员可以利用该数据集训练和评估问答模型，以提高模型在真实用户查询中的表现。此外，数据集还可用于研究查询理解和信息检索技术，帮助开发更智能、更高效的搜索引擎和问答系统。

背景与挑战

背景概述

Natural Questions数据集由Google Research于2019年创建，旨在推动开放域问答系统的研究。该数据集的核心研究问题是如何从维基百科中提取准确且完整的答案，以满足用户提出的复杂问题。主要研究人员包括Tom Kwiatkowski、Omer Levy等，他们的工作对问答系统领域产生了深远影响，特别是在长答案抽取和多跳推理方面。Natural Questions的引入，不仅提升了问答系统的准确性和实用性，还为后续研究提供了宝贵的基准数据。

当前挑战

Natural Questions数据集在构建过程中面临多项挑战。首先，如何从维基百科的庞大信息中高效且准确地抽取长答案，是一个复杂的技术难题。其次，数据集中包含大量需要多跳推理的问题，这对模型的推理能力提出了高要求。此外，数据集的标注过程也极具挑战性，需要确保标注的一致性和准确性。这些挑战不仅影响了数据集的质量，也对后续研究提出了更高的技术要求。

发展历史

创建时间与更新

Natural Questions数据集由Google Research于2019年首次发布，旨在推动开放域问答系统的发展。该数据集定期更新，以反映最新的知识库和用户查询趋势。

重要里程碑

Natural Questions的发布标志着问答系统研究进入了一个新的阶段。其独特之处在于要求模型直接从维基百科页面中提取答案，而非依赖预定义的知识库。这一创新极大地提升了模型的实用性和准确性。此外，数据集的发布还促进了多模态问答系统的研究，推动了自然语言处理技术在实际应用中的进步。

当前发展情况

目前，Natural Questions已成为问答系统领域的重要基准数据集，广泛应用于学术研究和工业界。其丰富的数据和复杂的任务设计，促使研究人员不断探索更高效的模型架构和算法。同时，该数据集的持续更新确保了其与时俱进，能够反映最新的语言现象和技术趋势。Natural Questions的贡献不仅限于问答系统，还对信息检索、文本摘要等多个领域产生了深远影响。

发展历程

Natural Questions数据集首次由Google Research团队在ACL会议上发表，旨在为开放域问答系统提供一个标准化的评估基准。
2019年
该数据集被广泛应用于多个问答系统的研究和开发中，成为评估模型性能的重要工具。
2020年
随着自然语言处理技术的进步，Natural Questions数据集开始用于探索更复杂的问答任务，如多跳问答和长答案生成。
2021年

常用场景

经典使用场景

在自然语言处理领域，Natural Questions数据集被广泛用于问答系统的开发与评估。该数据集包含了从Google搜索中提取的真实用户问题及其对应的维基百科页面答案，涵盖了广泛的主题和复杂性。研究人员利用这一数据集训练和测试模型，以提高其理解自然语言查询并从中提取准确信息的能力。

实际应用

在实际应用中，Natural Questions数据集被用于开发和优化搜索引擎、智能助手和知识库系统。例如，Google利用该数据集改进其搜索算法，使其能够更准确地回答用户的复杂查询。此外，智能助手如Google Assistant和Amazon Alexa也受益于这一数据集，提升了其对用户提问的理解和响应能力。

衍生相关工作

基于Natural Questions数据集，研究人员开发了多种问答模型和方法，如BERT-based问答系统、多任务学习模型和基于图神经网络的推理模型。这些工作不仅在学术界引起了广泛关注，还在工业界得到了实际应用。例如，BERT-based问答系统在多个问答竞赛中取得了优异成绩，推动了自然语言处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集