Natural Questions

github2024-05-24 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/natural-questions

下载链接

链接失效反馈

官方服务：

资源简介：

Natural Questions (NQ) 包含真实用户向Google搜索提出的问题，以及注释者从维基百科找到的答案。NQ旨在用于训练和评估自动问答系统。

Natural Questions (NQ) consists of real user questions submitted to Google Search, alongside answers extracted by annotators from Wikipedia. NQ is developed for training and evaluating automatic question answering systems.

创建时间：

2019-01-23

原始信息汇总

Natural Questions 数据集概述

数据集描述

Natural Questions (NQ) 包含真实用户向 Google 搜索提出的问题，以及从 Wikipedia 中找到的答案。NQ 旨在用于自动问答系统的训练和评估。

数据规模：包含 307,372 个训练样本，7,830 个开发样本，以及 7,842 个测试样本。
性能指标：在长答案选择任务上的人类上限为 87% F1，短答案选择任务上为 76% F1。

数据格式

每个样本包含：

问题文本和其分词表示。
Wikipedia 页面的时间戳 URL 和 HTML 表示。

示例数据

json { "question_text": "who founded google", "question_tokens": ["who", "founded", "google"], "document_url": "http://www.wikipedia.org/Google", "document_html": "<html><body><h1>Google</h1><p>Google was founded in 1998 by ..." }

文档标记

每个文档标记包含：

标记（token）：单词或 HTML 标签。
起始字节和结束字节。
是否为 HTML 标记的布尔值。

长答案候选

每个长答案候选包含：

字节偏移和标记偏移。
是否为顶层候选的布尔值。

标注

每个标注包含：

长答案的字节偏移和标记偏移。
短答案列表及其字节偏移和标记偏移。
是否为是/否答案的字段。

数据统计

训练数据：包含 307,373 个样本，其中 152,148 个有长答案，110,724 个有短答案。
长答案类型分布：
- <P>：72.9%
- <Table>：19.0%
- <Tr>：1.5%
- <Ul>, <Ol>, <Dl>：3.2%
- <Li>, <Dd>, <Dt>：3.4%

预测格式

请参阅评估脚本了解模型应输出的预测格式。

搜集汇总

数据集介绍

构建方式

Natural Questions数据集的构建基于真实用户向Google搜索提出的问题，并通过人工标注从维基百科中提取的答案。该数据集旨在为自动问答系统的训练和评估提供基准。数据集包含307,372个训练样本、7,830个开发样本和7,842个测试样本。每个样本包含一个用户问题、问题对应的维基百科页面HTML表示及其文本的标记化表示。此外，数据集还提供了长答案候选区域和短答案的标注，以支持不同类型的问答任务。

特点

Natural Questions数据集的显著特点在于其真实性和多样性。数据集中的问题和答案均来自实际用户查询和维基百科，确保了数据的高质量和实用性。此外，数据集提供了详细的HTML和文本标记化表示，支持基于结构和内容的多种问答方法。数据集还包含了长答案候选区域和短答案的标注，为研究者提供了丰富的信息来训练和评估问答系统。

使用方法

使用Natural Questions数据集时，用户可以选择原始的HTML格式或简化的文本格式。对于简化格式，数据集提供了转换工具以方便处理。用户可以通过提供的评估脚本进行模型预测的验证，并根据需要调整模型。此外，数据集还提供了数据浏览器和预处理工具，帮助用户更好地理解和利用数据。为了参与竞赛，用户需要构建Docker镜像并上传至竞赛网站。

背景与挑战

背景概述

Natural Questions（NQ）数据集由Google研究团队创建，旨在为自动问答系统提供训练和评估的基础。该数据集包含了用户向Google搜索提出的真实问题及其在维基百科中找到的答案，由标注人员进行整理。NQ数据集的核心研究问题是如何从大量文本中准确提取用户问题的答案，这对于提升搜索引擎的智能化水平具有重要意义。自发布以来，NQ已成为问答研究领域的重要基准，推动了相关技术的进步。

当前挑战

Natural Questions数据集在构建过程中面临多项挑战。首先，数据集需要处理真实用户提出的多样化问题，这些问题可能涉及复杂的语义和上下文信息，增加了答案提取的难度。其次，数据集包含了维基百科页面的完整HTML结构，如何有效利用这些结构信息进行答案定位是一个技术难题。此外，数据集的评估标准包括长答案和短答案的选择，以及是否存在“是/否”答案，这要求模型具备高度的准确性和灵活性。最后，数据集的规模和复杂性对模型的训练和推理效率提出了高要求，如何在保证准确性的同时提高处理速度是当前研究的重点。

常用场景

经典使用场景

Natural Questions数据集的经典使用场景主要集中在自动问答系统的训练与评估。该数据集通过收集真实用户在Google搜索中提出的问题及其在维基百科中找到的答案，为研究人员提供了一个真实且丰富的数据源。通过使用这些数据，研究人员可以开发和优化问答模型，使其能够更准确地从大量文本中提取和生成答案。

实际应用

在实际应用中，Natural Questions数据集被广泛用于开发和优化搜索引擎、智能助手和在线教育平台中的问答功能。通过使用该数据集训练的模型，这些系统能够更快速、准确地回答用户的问题，提升了用户体验和系统的智能化水平。

衍生相关工作

基于Natural Questions数据集，许多相关研究工作得以展开，包括但不限于问答模型的改进、多模态问答系统的开发以及跨语言问答技术的研究。这些工作不仅提升了问答系统的性能，还推动了自然语言处理技术在实际应用中的广泛应用和创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集