Natural Questions|问答系统数据集|自然语言处理数据集
收藏Natural Questions 数据集概述
数据集描述
Natural Questions (NQ) 包含真实用户向 Google 搜索提出的问题,以及从 Wikipedia 中找到的答案。NQ 旨在用于自动问答系统的训练和评估。
- 数据规模:包含 307,372 个训练样本,7,830 个开发样本,以及 7,842 个测试样本。
- 性能指标:在长答案选择任务上的人类上限为 87% F1,短答案选择任务上为 76% F1。
数据格式
每个样本包含:
- 问题文本和其分词表示。
- Wikipedia 页面的时间戳 URL 和 HTML 表示。
示例数据
json { "question_text": "who founded google", "question_tokens": ["who", "founded", "google"], "document_url": "http://www.wikipedia.org/Google", "document_html": "<html><body><h1>Google</h1><p>Google was founded in 1998 by ..." }
文档标记
每个文档标记包含:
- 标记(token):单词或 HTML 标签。
- 起始字节和结束字节。
- 是否为 HTML 标记的布尔值。
长答案候选
每个长答案候选包含:
- 字节偏移和标记偏移。
- 是否为顶层候选的布尔值。
标注
每个标注包含:
- 长答案的字节偏移和标记偏移。
- 短答案列表及其字节偏移和标记偏移。
- 是否为是/否答案的字段。
数据统计
- 训练数据:包含 307,373 个样本,其中 152,148 个有长答案,110,724 个有短答案。
- 长答案类型分布:
<P>
:72.9%<Table>
:19.0%<Tr>
:1.5%<Ul>
,<Ol>
,<Dl>
:3.2%<Li>
,<Dd>
,<Dt>
:3.4%
预测格式
请参阅 评估脚本 了解模型应输出的预测格式。

中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
Interaction Dataset
Interaction Dataset是一个用于处理和可视化交通场景的数据集,支持轨迹预测挑战,包括三个不同的预测模型训练和测试轨道。
github 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录