five

Natural Questions|问答系统数据集|自然语言处理数据集

收藏
github2024-05-24 更新2024-05-31 收录
问答系统
自然语言处理
下载链接:
https://github.com/google-research-datasets/natural-questions
下载链接
链接失效反馈
资源简介:
Natural Questions (NQ) 包含真实用户向Google搜索提出的问题,以及注释者从维基百科找到的答案。NQ旨在用于训练和评估自动问答系统。
创建时间:
2019-01-23
原始信息汇总

Natural Questions 数据集概述

数据集描述

Natural Questions (NQ) 包含真实用户向 Google 搜索提出的问题,以及从 Wikipedia 中找到的答案。NQ 旨在用于自动问答系统的训练和评估。

  • 数据规模:包含 307,372 个训练样本,7,830 个开发样本,以及 7,842 个测试样本。
  • 性能指标:在长答案选择任务上的人类上限为 87% F1,短答案选择任务上为 76% F1。

数据格式

每个样本包含:

  • 问题文本和其分词表示。
  • Wikipedia 页面的时间戳 URL 和 HTML 表示。

示例数据

json { "question_text": "who founded google", "question_tokens": ["who", "founded", "google"], "document_url": "http://www.wikipedia.org/Google", "document_html": "<html><body><h1>Google</h1><p>Google was founded in 1998 by ..." }

文档标记

每个文档标记包含:

  • 标记(token):单词或 HTML 标签。
  • 起始字节和结束字节。
  • 是否为 HTML 标记的布尔值。

长答案候选

每个长答案候选包含:

  • 字节偏移和标记偏移。
  • 是否为顶层候选的布尔值。

标注

每个标注包含:

  • 长答案的字节偏移和标记偏移。
  • 短答案列表及其字节偏移和标记偏移。
  • 是否为是/否答案的字段。

数据统计

  • 训练数据:包含 307,373 个样本,其中 152,148 个有长答案,110,724 个有短答案。
  • 长答案类型分布
    • <P>:72.9%
    • <Table>:19.0%
    • <Tr>:1.5%
    • <Ul>, <Ol>, <Dl>:3.2%
    • <Li>, <Dd>, <Dt>:3.4%

预测格式

请参阅 评估脚本 了解模型应输出的预测格式。

AI搜集汇总
数据集介绍
main_image_url
构建方式
Natural Questions数据集的构建基于真实用户向Google搜索提出的问题,并通过人工标注从维基百科中提取的答案。该数据集旨在为自动问答系统的训练和评估提供基准。数据集包含307,372个训练样本、7,830个开发样本和7,842个测试样本。每个样本包含一个用户问题、问题对应的维基百科页面HTML表示及其文本的标记化表示。此外,数据集还提供了长答案候选区域和短答案的标注,以支持不同类型的问答任务。
特点
Natural Questions数据集的显著特点在于其真实性和多样性。数据集中的问题和答案均来自实际用户查询和维基百科,确保了数据的高质量和实用性。此外,数据集提供了详细的HTML和文本标记化表示,支持基于结构和内容的多种问答方法。数据集还包含了长答案候选区域和短答案的标注,为研究者提供了丰富的信息来训练和评估问答系统。
使用方法
使用Natural Questions数据集时,用户可以选择原始的HTML格式或简化的文本格式。对于简化格式,数据集提供了转换工具以方便处理。用户可以通过提供的评估脚本进行模型预测的验证,并根据需要调整模型。此外,数据集还提供了数据浏览器和预处理工具,帮助用户更好地理解和利用数据。为了参与竞赛,用户需要构建Docker镜像并上传至竞赛网站。
背景与挑战
背景概述
Natural Questions(NQ)数据集由Google研究团队创建,旨在为自动问答系统提供训练和评估的基础。该数据集包含了用户向Google搜索提出的真实问题及其在维基百科中找到的答案,由标注人员进行整理。NQ数据集的核心研究问题是如何从大量文本中准确提取用户问题的答案,这对于提升搜索引擎的智能化水平具有重要意义。自发布以来,NQ已成为问答研究领域的重要基准,推动了相关技术的进步。
当前挑战
Natural Questions数据集在构建过程中面临多项挑战。首先,数据集需要处理真实用户提出的多样化问题,这些问题可能涉及复杂的语义和上下文信息,增加了答案提取的难度。其次,数据集包含了维基百科页面的完整HTML结构,如何有效利用这些结构信息进行答案定位是一个技术难题。此外,数据集的评估标准包括长答案和短答案的选择,以及是否存在“是/否”答案,这要求模型具备高度的准确性和灵活性。最后,数据集的规模和复杂性对模型的训练和推理效率提出了高要求,如何在保证准确性的同时提高处理速度是当前研究的重点。
常用场景
经典使用场景
Natural Questions数据集的经典使用场景主要集中在自动问答系统的训练与评估。该数据集通过收集真实用户在Google搜索中提出的问题及其在维基百科中找到的答案,为研究人员提供了一个真实且丰富的数据源。通过使用这些数据,研究人员可以开发和优化问答模型,使其能够更准确地从大量文本中提取和生成答案。
实际应用
在实际应用中,Natural Questions数据集被广泛用于开发和优化搜索引擎、智能助手和在线教育平台中的问答功能。通过使用该数据集训练的模型,这些系统能够更快速、准确地回答用户的问题,提升了用户体验和系统的智能化水平。
衍生相关工作
基于Natural Questions数据集,许多相关研究工作得以展开,包括但不限于问答模型的改进、多模态问答系统的开发以及跨语言问答技术的研究。这些工作不仅提升了问答系统的性能,还推动了自然语言处理技术在实际应用中的广泛应用和创新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

Interaction Dataset

Interaction Dataset是一个用于处理和可视化交通场景的数据集,支持轨迹预测挑战,包括三个不同的预测模型训练和测试轨道。

github 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录