five

ATIS Dataset

收藏
github2019-06-08 更新2024-05-31 收录
下载链接:
https://github.com/ysrs/ATIS_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库包含了Python pickle格式和Rasa NLU JSON格式的ATIS数据集,提供了读取脚本和示例代码。数据集包含航班信息,如出发地、目的地、时间等,用于训练和测试自然语言理解模型。

This repository contains the ATIS dataset in both Python pickle format and Rasa NLU JSON format, along with scripts and sample code for reading the data. The dataset includes flight information such as departure location, destination, and time, and is intended for training and testing natural language understanding models.
创建时间:
2019-06-05
原始信息汇总

ATIS (Airline Travel Information System) Dataset 概述

数据格式

  • Python 3 Pickle 格式
  • Rasa NLU JSON 格式

数据样本

原始格式

text 0: flight: BOS i want to fly from boston at 838 am and arrive in denver at 1110 in the morning EOS BOS O i O want O to O fly O from O boston B-fromloc.city_name at O 838 B-depart_time.time am I-depart_time.time and O arrive O in O denver B-toloc.city_name at O 1110 B-arrive_time.time in O the O morning B-arrive_time.period_of_day EOS O

Rasa NLU Json 格式

json { "rasa_nlu_data": { "common_examples": [ { "text": "i would like to find a flight from charlotte to las vegas that makes a stop in st. louis", "intent": "flight", "entities": [ { "start": 35, "end": 44, "value": "charlotte", "entity": "fromloc.city_name" }, { "start": 48, "end": 57, "value": "las vegas", "entity": "toloc.city_name" }, { "start": 79, "end": 88, "value": "st. louis", "entity": "stoploc.city_name" } ] }, ... ] } }

数据统计

样本数 词汇数 实体数 意图数
4978(训练集)+893(测试集) 943 129 26

下载

数据格式 训练集 测试集
Python 3 Pickle 格式 atis.train.pkl atis.test.pkl
Rasa NLU JSON 格式 train.json test.json

数据来源

搜集汇总
数据集介绍
main_image_url
构建方式
ATIS数据集的构建基于航空旅行信息系统(Airline Travel Information System),旨在收集和标注与航空旅行相关的自然语言查询。数据集通过人工标注的方式,将原始文本中的词汇和短语映射到预定义的实体和意图类别中。具体而言,数据集包含了4978个训练样本和893个测试样本,涵盖了943个词汇、129个实体和26个意图。这些样本以Python pickle格式和Rasa NLU JSON格式存储,便于不同应用场景下的数据读取和处理。
特点
ATIS数据集的主要特点在于其高度专业化的领域背景,即航空旅行信息系统。数据集中的样本涵盖了从航班查询到目的地选择等多种用户意图,且每个样本都经过精细的实体标注,如出发地、目的地、时间等。此外,数据集提供了两种格式(Python pickle和Rasa NLU JSON),使得用户可以根据需求选择最适合的格式进行数据处理。这种多样化的格式支持,使得ATIS数据集在自然语言处理和机器学习领域具有广泛的应用价值。
使用方法
ATIS数据集的使用方法多样,用户可以根据需求选择Python pickle或Rasa NLU JSON格式进行数据读取。对于Python pickle格式,用户可以参考提供的summary_data.py脚本,实现从原始文件中读取数据。而对于Rasa NLU JSON格式,用户可以直接导入数据进行模型训练和评估。此外,数据集还提供了详细的统计信息和示例代码,帮助用户快速上手并理解数据结构。通过这些工具和资源,用户可以高效地利用ATIS数据集进行自然语言处理任务的开发和研究。
背景与挑战
背景概述
ATIS(Airline Travel Information System)数据集是一个专注于航空旅行信息系统的自然语言处理数据集,由主要研究人员或机构在特定时间创建。该数据集的核心研究问题涉及自然语言理解(NLU),特别是意图识别和实体提取,这对于构建智能对话系统至关重要。ATIS数据集的发布极大地推动了相关领域的研究进展,特别是在对话系统和信息检索领域,为研究人员提供了一个标准化的基准数据集。
当前挑战
ATIS数据集在构建过程中面临多个挑战。首先,数据集的标注工作复杂,需要精确识别和标注多种意图和实体类型,这增加了数据处理的难度。其次,数据集的规模相对较小,可能导致模型在实际应用中的泛化能力受限。此外,数据集中的语言多样性和噪声问题也是需要解决的挑战,这些问题影响了模型的训练效果和最终性能。
常用场景
经典使用场景
ATIS数据集在自然语言处理领域中被广泛应用于意图识别和实体抽取任务。其经典使用场景包括构建和评估对话系统、语音识别系统以及信息检索系统。通过分析用户查询中的意图和相关实体,系统能够更准确地理解用户需求,从而提供更为精准的服务。
解决学术问题
ATIS数据集解决了自然语言处理中意图识别和实体抽取的核心问题。它为研究人员提供了一个标准化的基准数据集,用于评估和比较不同模型的性能。通过该数据集,研究者能够深入探讨如何从复杂的自然语言表达中提取关键信息,从而推动了相关领域的发展。
衍生相关工作
基于ATIS数据集,许多相关工作得以展开,包括但不限于改进意图识别算法、优化实体抽取模型以及开发多轮对话系统。例如,一些研究通过引入上下文信息,提升了意图识别的准确性;另一些工作则专注于提高实体抽取的效率和精度,从而推动了自然语言处理技术的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作