ATCO2 corpus

Name: ATCO2 corpus
Creator: Idiap 研究所
Published: 2023-06-15 21:53:05
License: 暂无描述

arXiv2023-06-15 更新2024-06-21 收录

下载链接：

https://www.atco2.org/data

下载链接

链接失效反馈

官方服务：

资源简介：

ATCO2 corpus是一个大规模的数据集，旨在促进航空交通控制通信领域的自动语音识别和自然语言理解研究。该数据集由Idiap研究所创建，包含超过5281小时的ATC语音数据，覆盖全球多个机场。数据集内容包括数据收集、预处理、语音数据的伪注释以及ATC相关命名实体的提取。ATCO2 corpus的应用领域主要是解决航空交通控制中的语音识别和语言理解问题，旨在通过数据驱动的AI系统提高ATC操作的安全性和效率。

ATCO2 corpus is a large-scale dataset developed to advance research on automatic speech recognition and natural language understanding in the domain of air traffic control communications. It was created by the Idiap Research Institute, and contains over 5,281 hours of ATC speech data covering multiple airports worldwide. The dataset includes data collection, preprocessing, pseudo-annotation of speech data, and extraction of ATC-related named entities. The main application scenarios of the ATCO2 corpus are addressing speech recognition and language understanding challenges in air traffic control, with the goal of improving the safety and efficiency of ATC operations through data-driven AI systems.

提供机构：

Idiap 研究所

创建时间：

2022-11-08

搜集汇总

数据集介绍

构建方式

ATCO2corpus数据集的构建方式主要包括数据收集、预处理、语音数据的伪标注以及与空中交通管制相关的命名实体的提取。数据收集过程依赖于一个由志愿者组成的社区，他们使用VHF无线电接收器捕获空中交通管制语音，并将其上传到OpenSky Network服务器。预处理步骤包括语音分割、音量调整、去除噪声记录、说话人分割、自动语音识别、英语语言检测、说话人角色检测以及使用命名实体识别标注通话代号、指令和值。语音数据被分为三个子集：ATCO2-test-set包含4小时的带有人工转录的空中交通管制语音，其中一部分带有用于命名实体识别的金标注；ATCO2-PL-set包含约5281小时的未标记空中交通管制数据，其中每个语音片段都包含自动转录的语音、上下文信息、说话人转换信息、信噪比估计和英语语言检测得分；ATCO2-test-set-1h是从原始测试集子集中提取的一个小时的子集，免费提供。

特点

ATCO2corpus数据集的特点在于其规模庞大、数据丰富、标注质量高。数据集覆盖了来自世界各地的10个机场，包含超过5000小时的自动转录空中交通管制语音数据，并带有丰富的元数据，如信噪比估计、英语语言检测得分等。此外，数据集还提供了用于训练自动语音识别和自然语言理解系统的金标注，包括通话代号、指令和值的标注，以及说话人角色的标注。这使得ATCO2corpus成为研究鲁棒自动语音识别和自然语言理解空中交通管制通信的宝贵资源。

使用方法

使用ATCO2corpus数据集的方法主要包括自动语音识别、命名实体识别和说话人角色检测。自动语音识别系统可以使用数据集中的自动转录语音数据进行训练，以提高其在空中交通管制领域的识别准确率。命名实体识别系统可以使用数据集中的金标注数据进行训练，以识别通话代号、指令和值等高级行实体。说话人角色检测系统可以使用数据集中的说话人角色标注数据进行训练，以识别说话人是空中交通管制员还是飞行员。此外，ATCO2corpus数据集还可以用于其他任务，如读回错误检测和英语语言检测。

背景与挑战

背景概述

随着语音识别和自然语言理解技术的不断发展，其在航空交通管制（ATC）通信中的应用也日益受到关注。ATC通信对于确保飞行安全和提高空中交通管理的效率至关重要。然而，由于缺乏大规模的标注数据集，ATC领域的研究一直滞后。为了解决这一问题，ATCO2项目应运而生，该项目由Clean Sky 2联合企业（JU）和欧盟地平线2020计划共同资助，旨在收集、组织、预处理和自动标注ATC对话。该项目的主要目标是创建一个名为ATCO2corpus的数据集，用于促进鲁棒的自动语音识别（ASR）和自然语言理解（NLU）的研究。ATCO2corpus包含超过5000小时的ATC语音数据，涵盖了来自不同大陆的十多个机场，并提供了丰富的元数据，如信号噪声比估计和英语语言检测分数。此外，ATCO2corpus还包含了ATCO2-test-set-1h子集，这是一个免费提供的1小时数据集，用于ASR和NLP研究。ATCO2项目的成果对于推动ATC通信中的鲁棒ASR和NLU研究具有重要意义，并为开发能够减少ATCO工作负担和提高空中交通管理效率的AI工具奠定了基础。

当前挑战

ATCO2corpus面临的挑战主要包括：1）ATC领域的数据资源有限，导致现有的数据集无法满足训练鲁棒的ASR和NLU系统的需求；2）ATC通信的标注过程成本高昂且耗时长，限制了相关研究的进展；3）ATC通信与非ATC通信之间存在显著的领域差异，现有的ASR和NLU系统难以适应ATC领域的特定需求；4）ATC通信的录音通常噪声较大，语速较快，给ASR和NLU系统带来了额外的挑战。为了应对这些挑战，ATCO2项目采取了一系列措施，如利用机器学习技术加速数据收集和标注过程，收集来自多个机场的标注和伪标签录音，以及开发能够处理噪声和快速语速的ASR和NLU系统。

常用场景

经典使用场景

ATCO2 corpus 是一个大规模的数据集，专为研究自动语音识别（ASR）和自然语言理解（NLU）中的空中交通管制通信而设计。该数据集包含丰富的注释数据，包括手动转录的语音、命名实体识别（NER）标签、上下文信息、说话人角色信息、信噪比估计和英语语言检测得分。这使得 ATCO2 corpus 成为开发鲁棒的 ASR 和 NLU 系统的理想选择，这些系统可以理解和提取空中交通管制通信中的关键信息，例如飞机呼号、指令和值。

解决学术问题

ATCO2 corpus 解决了空中交通管制通信领域缺乏大规模注释数据的问题。现有的空中交通管制语料库主要集中在自动语音识别上，而缺乏用于下游任务的注释数据，例如命名实体识别或呼号检测。ATCO2 corpus 通过提供详细的注释数据，为研究人员提供了开发更全面的 ASR 和 NLU 系统的工具，这些系统可以理解和提取空中交通管制通信中的关键信息。

衍生相关工作

ATCO2 corpus 衍生了许多相关的经典工作，例如： 1. 自动呼号识别：ATCO2 corpus 可以用于训练系统以自动识别和提取空中交通管制通信中的呼号。 2. 说话人角色检测：ATCO2 corpus 可以用于训练系统以确定空中交通管制通信中的说话人角色。 3. 语音活动检测：ATCO2 corpus 可以用于训练系统以检测空中交通管制通信中的语音活动。 4. 上下文信息利用：ATCO2 corpus 可以用于研究如何利用上下文信息来提高 ASR 和 NLU 系统的性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集