google-research-datasets/natural_questions

Hugging Face2024-03-11 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/google-research-datasets/natural_questions

下载链接

链接失效反馈

资源简介：

NQ语料库包含来自真实用户的问题，要求问答系统阅读和理解整个维基百科文章，以找到问题的答案。由于包含真实用户的问题，并且要求系统阅读整个页面来找到答案，NQ比之前的问答数据集更具现实性和挑战性。

The NQ Corpus comprises questions from real users, and requires question answering (QA) systems to read and fully comprehend entire Wikipedia articles to locate the answers to these questions. Given that it contains authentic user questions and requires systems to read complete pages to find the answers, the NQ Corpus is more realistic and challenging than prior question answering datasets.

提供机构：

google-research-datasets

原始信息汇总

数据集卡片：Natural Questions

数据集描述

数据集摘要

Natural Questions 数据集包含真实用户提出的问题，要求问答系统阅读并理解可能包含或不包含答案的整个 Wikipedia 文章。由于包含了真实用户的问题，并且要求解决方案阅读整个页面以找到答案，Natural Questions 比之前的问答数据集更真实、更具挑战性。

支持的任务和排行榜

任务类别: 问答
任务ID: 开放领域问答

语言

英语 (en)

数据集结构

数据实例

以下是一个训练集的示例：

json { "id": "797803103760793766", "document": { "title": "Google", "url": "http://www.wikipedia.org/Google", "html": "<html><body><h1>Google Inc.</h1><p>Google was founded in 1998 By:<ul><li>Larry</li><li>Sergey</li></ul></p></body></html>", "tokens":[ {"token": "<h1>", "start_byte": 12, "end_byte": 16, "is_html": True}, {"token": "Google", "start_byte": 16, "end_byte": 22, "is_html": False}, {"token": "inc", "start_byte": 23, "end_byte": 26, "is_html": False}, {"token": ".", "start_byte": 26, "end_byte": 27, "is_html": False}, {"token": "</h1>", "start_byte": 27, "end_byte": 32, "is_html": True}, {"token": "<p>", "start_byte": 32, "end_byte": 35, "is_html": True}, {"token": "Google", "start_byte": 35, "end_byte": 41, "is_html": False}, {"token": "was", "start_byte": 42, "end_byte": 45, "is_html": False}, {"token": "founded", "start_byte": 46, "end_byte": 53, "is_html": False}, {"token": "in", "start_byte": 54, "end_byte": 56, "is_html": False}, {"token": "1998", "start_byte": 57, "end_byte": 61, "is_html": False}, {"token": "by", "start_byte": 62, "end_byte": 64, "is_html": False}, {"token": ":", "start_byte": 64, "end_byte": 65, "is_html": False}, {"token": "<ul>", "start_byte": 65, "end_byte": 69, "is_html": True}, {"token": "<li>", "start_byte": 69, "end_byte": 73, "is_html": True}, {"token": "Larry", "start_byte": 73, "end_byte": 78, "is_html": False}, {"token": "</li>", "start_byte": 78, "end_byte": 83, "is_html": True}, {"token": "<li>", "start_byte": 83, "end_byte": 87, "is_html": True}, {"token": "Sergey", "start_byte": 87, "end_byte": 92, "is_html": False}, {"token": "</li>", "start_byte": 92, "end_byte": 97, "is_html": True}, {"token": "</ul>", "start_byte": 97, "end_byte": 102, "is_html": True}, {"token": "</p>", "start_byte": 102, "end_byte": 106, "is_html": True} ], }, "question" :{ "text": "who founded google", "tokens": ["who", "founded", "google"] }, "long_answer_candidates": [ {"start_byte": 32, "end_byte": 106, "start_token": 5, "end_token": 22, "top_level": True}, {"start_byte": 65, "end_byte": 102, "start_token": 13, "end_token": 21, "top_level": False}, {"start_byte": 69, "end_byte": 83, "start_token": 14, "end_token": 17, "top_level": False}, {"start_byte": 83, "end_byte": 92, "start_token": 17, "end_token": 20 , "top_level": False} ], "annotations": [{ "id": "6782080525527814293", "long_answer": {"start_byte": 32, "end_byte": 106, "start_token": 5, "end_token": 22, "candidate_index": 0}, "short_answers": [ {"start_byte": 73, "end_byte": 78, "start_token": 15, "end_token": 16, "text": "Larry"}, {"start_byte": 87, "end_byte": 92, "start_token": 18, "end_token": 19, "text": "Sergey"} ], "yes_no_answer": -1 }] }

数据字段

default

id: 字符串特征。
document: 包含以下字段的字典特征：
- title: 字符串特征。
- url: 字符串特征。
- html: 字符串特征。
- tokens: 包含以下字段的字典特征：
  - token: 字符串特征。
  - is_html: 布尔特征。
  - start_byte: 64位整数特征。
  - end_byte: 64位整数特征。
question: 包含以下字段的字典特征：
- text: 字符串特征。
- tokens: 字符串列表特征。
long_answer_candidates: 包含以下字段的字典特征：
- start_token: 64位整数特征。
- end_token: 64位整数特征。
- start_byte: 64位整数特征。
- end_byte: 64位整数特征。
- top_level: 布尔特征。
annotations: 包含以下字段的字典特征：
- id: 字符串特征。
- long_answers: 包含以下字段的字典特征：
  - start_token: 64位整数特征。
  - end_token: 64位整数特征。
  - start_byte: 64位整数特征。
  - end_byte: 64位整数特征。
  - candidate_index: 64位整数特征。
- short_answers: 包含以下字段的字典特征：
  - start_token: 64位整数特征。
  - end_token: 64位整数特征。
  - start_byte: 64位整数特征。
  - end_byte: 64位整数特征。
  - text: 字符串特征。
- yes_no_answer: 分类标签，可能的值包括 NO (0), YES (1)。

数据分割

名称	训练集	验证集
default	307373	7830
dev	N/A	7830

数据集创建

策划理由

需要更多信息

源数据

初始数据收集和规范化

需要更多信息

源语言生产者是谁？

需要更多信息

注释

使用数据的注意事项

数据集的社会影响

需要更多信息

偏见的讨论

需要更多信息

其他已知限制

需要更多信息

附加信息

数据集策展人

需要更多信息

许可信息

Creative Commons Attribution-ShareAlike 3.0 Unported

引用信息

bibtex @article{47761, title = {Natural Questions: a Benchmark for Question Answering Research}, author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov}, year = {2019}, journal = {Transactions of the Association of Computational Linguistics} }

贡献

感谢 @thomwolf, @lhoestq 添加此数据集。

搜集汇总

数据集介绍

构建方式

Natural Questions (NQ) 数据集的构建旨在提供一个更加真实和具有挑战性的问答数据集。该数据集包含了真实用户提出的问题，并要求问答系统能够阅读并理解整个维基百科页面，以寻找问题的答案。数据集的构建过程中，收集了大量真实用户的问题，并从维基百科中选取了相应的页面作为问答的基础。

特点

NQ 数据集的主要特点在于其真实性和挑战性。数据集中的问题均来自真实用户，这使得数据集更加贴近实际应用场景。同时，数据集要求问答系统能够阅读并理解整个维基百科页面，以寻找问题的答案，这使得 NQ 数据集成为一个更具挑战性的问答数据集。

使用方法

使用 NQ 数据集时，首先需要下载数据集文件，并根据需要选择不同的配置（如 default 或 dev）。然后，可以使用数据集中的数据来训练和评估问答系统。在训练过程中，可以使用数据集中的问题、文档、答案候选和标注等信息来训练问答模型。在评估过程中，可以使用数据集中的验证集来评估问答系统的性能。

背景与挑战

背景概述

自然语言处理领域，尤其是问答系统的研究，长期以来一直致力于提高机器对自然语言的理解能力。为了推动这一领域的发展，Google Research于2019年推出了Natural Questions数据集。该数据集包含真实用户提出的问题，并要求问答系统能够阅读和理解整个维基百科页面，以寻找问题的答案。这种需求使得Natural Questions成为比以往问答数据集更具现实性和挑战性的任务。数据集由Google Research的研究人员创建，旨在为问答系统提供一个更贴近真实场景的训练和评估平台，从而推动问答系统的研究和发展。

当前挑战

Natural Questions数据集面临的挑战主要包括：1) 所解决的领域问题，即开放域问答（Open-Domain Question Answering，ODQA）的挑战。ODQA要求系统在广泛的领域内理解问题，并从大量非结构化文本中提取答案，这需要系统具备强大的语义理解能力和信息检索能力。2) 构建过程中所遇到的挑战。数据集的构建需要从维基百科等知识库中收集和整理数据，并对数据进行标注和预处理，这一过程需要大量的人力物力投入，并面临数据质量、标注一致性等问题。

常用场景

经典使用场景

在自然语言处理领域，尤其是问答系统的研究中，自然问答（Natural Questions，NQ）数据集因其包含真实用户的开放域问题而备受关注。研究者通常利用NQ数据集来训练和评估问答模型，以期提高模型在处理复杂、开放域问题时的性能。该数据集的特点是要求模型阅读和理解整个Wikipedia文章，从中寻找问题的答案，这对于提升模型的信息提取和理解能力至关重要。

实际应用

NQ数据集在实际应用中，可以用于构建更智能的搜索引擎、虚拟助手和在线客服等。这些应用场景中，用户提出的问题往往没有固定的答案结构，需要系统能够理解用户意图，并在大量非结构化文本中准确找到答案。通过使用NQ数据集进行模型训练，可以提高这些系统的准确性和实用性，从而提升用户体验。

衍生相关工作

基于NQ数据集的研究成果丰富，它不仅推动了问答技术的进步，还衍生出了许多相关的经典工作。例如，一些研究利用NQ数据集来探索更有效的阅读理解模型，而另一些研究则关注如何利用NQ数据集来提升模型的泛化能力。此外，NQ数据集还被用于开发新的评估指标和方法，以更准确地衡量问答系统的性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

google-research-datasets/natural_questions

数据集卡片：Natural Questions

数据集描述

数据集摘要

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

default

数据分割

数据集创建

策划理由

源数据

初始数据收集和规范化

源语言生产者是谁？

注释

注释过程

注释者是谁？

个人和敏感信息

使用数据的注意事项

数据集的社会影响

偏见的讨论

其他已知限制

附加信息

数据集策展人

许可信息

引用信息

贡献