five

ATIS Dataset|航班信息数据集|自然语言处理数据集

收藏
github2019-06-08 更新2024-05-31 收录
航班信息
自然语言处理
下载链接:
https://github.com/ysrs/ATIS_dataset
下载链接
链接失效反馈
资源简介:
本仓库包含了Python pickle格式和Rasa NLU JSON格式的ATIS数据集,提供了读取脚本和示例代码。数据集包含航班信息,如出发地、目的地、时间等,用于训练和测试自然语言理解模型。

This repository contains the ATIS dataset in both Python pickle format and Rasa NLU JSON format, along with scripts and sample code for reading the data. The dataset includes flight information such as departure location, destination, and time, and is intended for training and testing natural language understanding models.
创建时间:
2019-06-05
原始信息汇总

ATIS (Airline Travel Information System) Dataset 概述

数据格式

  • Python 3 Pickle 格式
  • Rasa NLU JSON 格式

数据样本

原始格式

text 0: flight: BOS i want to fly from boston at 838 am and arrive in denver at 1110 in the morning EOS BOS O i O want O to O fly O from O boston B-fromloc.city_name at O 838 B-depart_time.time am I-depart_time.time and O arrive O in O denver B-toloc.city_name at O 1110 B-arrive_time.time in O the O morning B-arrive_time.period_of_day EOS O

Rasa NLU Json 格式

json { "rasa_nlu_data": { "common_examples": [ { "text": "i would like to find a flight from charlotte to las vegas that makes a stop in st. louis", "intent": "flight", "entities": [ { "start": 35, "end": 44, "value": "charlotte", "entity": "fromloc.city_name" }, { "start": 48, "end": 57, "value": "las vegas", "entity": "toloc.city_name" }, { "start": 79, "end": 88, "value": "st. louis", "entity": "stoploc.city_name" } ] }, ... ] } }

数据统计

样本数 词汇数 实体数 意图数
4978(训练集)+893(测试集) 943 129 26

下载

数据格式 训练集 测试集
Python 3 Pickle 格式 atis.train.pkl atis.test.pkl
Rasa NLU JSON 格式 train.json test.json

数据来源

AI搜集汇总
数据集介绍
main_image_url
构建方式
ATIS数据集的构建基于航空旅行信息系统(Airline Travel Information System),旨在收集和标注与航空旅行相关的自然语言查询。数据集通过人工标注的方式,将原始文本中的词汇和短语映射到预定义的实体和意图类别中。具体而言,数据集包含了4978个训练样本和893个测试样本,涵盖了943个词汇、129个实体和26个意图。这些样本以Python pickle格式和Rasa NLU JSON格式存储,便于不同应用场景下的数据读取和处理。
特点
ATIS数据集的主要特点在于其高度专业化的领域背景,即航空旅行信息系统。数据集中的样本涵盖了从航班查询到目的地选择等多种用户意图,且每个样本都经过精细的实体标注,如出发地、目的地、时间等。此外,数据集提供了两种格式(Python pickle和Rasa NLU JSON),使得用户可以根据需求选择最适合的格式进行数据处理。这种多样化的格式支持,使得ATIS数据集在自然语言处理和机器学习领域具有广泛的应用价值。
使用方法
ATIS数据集的使用方法多样,用户可以根据需求选择Python pickle或Rasa NLU JSON格式进行数据读取。对于Python pickle格式,用户可以参考提供的summary_data.py脚本,实现从原始文件中读取数据。而对于Rasa NLU JSON格式,用户可以直接导入数据进行模型训练和评估。此外,数据集还提供了详细的统计信息和示例代码,帮助用户快速上手并理解数据结构。通过这些工具和资源,用户可以高效地利用ATIS数据集进行自然语言处理任务的开发和研究。
背景与挑战
背景概述
ATIS(Airline Travel Information System)数据集是一个专注于航空旅行信息系统的自然语言处理数据集,由主要研究人员或机构在特定时间创建。该数据集的核心研究问题涉及自然语言理解(NLU),特别是意图识别和实体提取,这对于构建智能对话系统至关重要。ATIS数据集的发布极大地推动了相关领域的研究进展,特别是在对话系统和信息检索领域,为研究人员提供了一个标准化的基准数据集。
当前挑战
ATIS数据集在构建过程中面临多个挑战。首先,数据集的标注工作复杂,需要精确识别和标注多种意图和实体类型,这增加了数据处理的难度。其次,数据集的规模相对较小,可能导致模型在实际应用中的泛化能力受限。此外,数据集中的语言多样性和噪声问题也是需要解决的挑战,这些问题影响了模型的训练效果和最终性能。
常用场景
经典使用场景
ATIS数据集在自然语言处理领域中被广泛应用于意图识别和实体抽取任务。其经典使用场景包括构建和评估对话系统、语音识别系统以及信息检索系统。通过分析用户查询中的意图和相关实体,系统能够更准确地理解用户需求,从而提供更为精准的服务。
解决学术问题
ATIS数据集解决了自然语言处理中意图识别和实体抽取的核心问题。它为研究人员提供了一个标准化的基准数据集,用于评估和比较不同模型的性能。通过该数据集,研究者能够深入探讨如何从复杂的自然语言表达中提取关键信息,从而推动了相关领域的发展。
衍生相关工作
基于ATIS数据集,许多相关工作得以展开,包括但不限于改进意图识别算法、优化实体抽取模型以及开发多轮对话系统。例如,一些研究通过引入上下文信息,提升了意图识别的准确性;另一些工作则专注于提高实体抽取的效率和精度,从而推动了自然语言处理技术的进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

Chinese-Poetry-Corpus

本语料库收集自互联网,包含了从先秦到当代的古诗词数据,以CSV格式进行存储。经过去重后,包含诗词共计1014508首。古诗词按朝代进行划分,存储于文件夹下,命名规则为朝代.csv。每首诗词数据包含五个字段,分别为标题、朝代、作者、体裁、内容。

github 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

CACD

跨年龄名人数据集是用于跨年龄人脸识别和检索的数据集。它包含 2,000 位名人的 163,446 张图像。该数据集于 2014 年由马里兰大学计算机科学系发表,论文名为 cross-age Reference Coding for Age-invariant Face Recognition and Retrieval。

OpenDataLab 收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录