ATIS Dataset|航班信息数据集|自然语言处理数据集
收藏ATIS (Airline Travel Information System) Dataset 概述
数据格式
- Python 3 Pickle 格式
- Rasa NLU JSON 格式
数据样本
原始格式
text 0: flight: BOS i want to fly from boston at 838 am and arrive in denver at 1110 in the morning EOS BOS O i O want O to O fly O from O boston B-fromloc.city_name at O 838 B-depart_time.time am I-depart_time.time and O arrive O in O denver B-toloc.city_name at O 1110 B-arrive_time.time in O the O morning B-arrive_time.period_of_day EOS O
Rasa NLU Json 格式
json { "rasa_nlu_data": { "common_examples": [ { "text": "i would like to find a flight from charlotte to las vegas that makes a stop in st. louis", "intent": "flight", "entities": [ { "start": 35, "end": 44, "value": "charlotte", "entity": "fromloc.city_name" }, { "start": 48, "end": 57, "value": "las vegas", "entity": "toloc.city_name" }, { "start": 79, "end": 88, "value": "st. louis", "entity": "stoploc.city_name" } ] }, ... ] } }
数据统计
样本数 | 词汇数 | 实体数 | 意图数 |
---|---|---|---|
4978(训练集)+893(测试集) | 943 | 129 | 26 |
下载
数据格式 | 训练集 | 测试集 |
---|---|---|
Python 3 Pickle 格式 | atis.train.pkl | atis.test.pkl |
Rasa NLU JSON 格式 | train.json | test.json |
数据来源
- 原始数据集:ATIS DataSet by siddhadev
- 部分代码:MicroSoft CNTK Examples

URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
Chinese-Poetry-Corpus
本语料库收集自互联网,包含了从先秦到当代的古诗词数据,以CSV格式进行存储。经过去重后,包含诗词共计1014508首。古诗词按朝代进行划分,存储于文件夹下,命名规则为朝代.csv。每首诗词数据包含五个字段,分别为标题、朝代、作者、体裁、内容。
github 收录
AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录
CACD
跨年龄名人数据集是用于跨年龄人脸识别和检索的数据集。它包含 2,000 位名人的 163,446 张图像。该数据集于 2014 年由马里兰大学计算机科学系发表,论文名为 cross-age Reference Coding for Age-invariant Face Recognition and Retrieval。
OpenDataLab 收录
中国农村教育发展报告
该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。
www.moe.gov.cn 收录