ATCO2 corpus

github2023-03-24 更新2024-05-31 收录

下载链接：

https://github.com/idiap/atco2-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

ATCO2语料库是一个大规模数据集，旨在促进航空交通控制通信领域中自动语音识别和自然语言理解的研究。该数据集覆盖了数据收集与预处理、语音数据的伪注释以及航空交通控制相关命名实体的提取。ATCO2语料库分为三个子集：ATCO2-test-set包含4小时的航空交通控制语音，带有手动转录和黄金注释；ATCO2-PL-set包含5281小时的未标记航空交通数据，丰富了自动转录、上下文信息、说话人轮次信息、信噪比估计和每样本英语语言检测分数；ATCO2-test-set-1h是从原始测试集语料库中提取的一小时子集，免费提供。

The ATCO2 corpus is a large-scale dataset designed to facilitate research in automatic speech recognition and natural language understanding within the domain of air traffic control communications. This dataset encompasses data collection and preprocessing, pseudo-annotation of speech data, and the extraction of named entities relevant to air traffic control. The ATCO2 corpus is divided into three subsets: the ATCO2-test-set includes 4 hours of air traffic control speech with manual transcriptions and gold-standard annotations; the ATCO2-PL-set comprises 5281 hours of unlabeled air traffic data, enriched with automatic transcriptions, contextual information, speaker turn details, signal-to-noise ratio estimates, and per-sample English language detection scores; the ATCO2-test-set-1h is a one-hour subset extracted from the original test set corpus, made available free of charge.

创建时间：

2022-11-10

原始信息汇总

数据集概述

名称: ATCO2 corpus

目的: 用于研究自动语音识别（ASR）和自然语言理解（NLU）在空中交通管制通信领域的应用。

数据集内容:

ATCO2-test-set: 包含4小时的空中交通管制语音数据，附有手动转录和黄金标注的命名实体识别（呼号、命令、值）。
ATCO2-PL-set: 包含5281小时的未标注空中交通管制数据，附有自动转录、上下文信息、说话人轮次信息、信噪比估计和英语语言检测分数。
ATCO2-test-set-1h: 从原始测试集数据中提取的一小时子集，提供免费使用。

数据集特点:

旨在促进ATC领域中ASR和NLU的研究，该领域因缺乏标注数据而滞后。
覆盖数据收集与预处理、语音数据的伪标注、以及ATC相关命名实体的提取。

应用场景:

自动语音识别: 获取ATC通信中的文本信息。
说话人角色识别: 识别通信中的说话人。
命名实体识别: 识别通信中的呼号、命令和值。

数据集可用性:

ATCO2-test-set 和 ATCO2-PL-set 可通过ELDA购买。
ATCO2-test-set-1h 可免费获取。

许可证: MIT License

作者: Juan Pablo Zuluaga

搜集汇总

数据集介绍

构建方式

ATCO2语料库的构建过程涵盖了数据收集、预处理、语音数据的伪标注以及空中交通管制相关命名实体的提取。该数据集分为三个子集：ATCO2-test-set包含4小时的手动转录语音数据及部分命名实体识别的黄金标注；ATCO2-PL-set包含5281小时的未标注数据，并附有自动转录文本、上下文信息、说话者轮换信息、信噪比估计及英语检测分数；ATCO2-test-set-1h则是从测试集中提取的一小时免费子集。这些数据通过ELDA平台提供购买或免费下载。

特点

ATCO2语料库的特点在于其大规模、多样化的空中交通管制语音数据，涵盖了丰富的上下文信息和详细的元数据。数据集不仅提供了高质量的语音转录文本，还包含了命名实体识别所需的标注信息，如呼号、指令和数值。此外，数据集还提供了信噪比估计和语言检测分数，为研究自动语音识别和自然语言理解提供了坚实的基础。

使用方法

ATCO2语料库的使用方法包括下载数据、训练模型和评估模型性能。用户可以通过HuggingFace平台获取预训练模型，进行自动语音识别、说话者角色识别和命名实体识别等任务。数据集的详细使用步骤包括环境准备、数据下载、模型训练和评估。用户还可以利用KenLM工具训练语言模型，并通过提供的脚本进行模型性能评估。

背景与挑战

背景概述

ATCO2语料库是由瑞士Idiap研究所的研究团队于2022年推出的大规模数据集，旨在推动自动语音识别（ASR）和自然语言理解（NLU）在航空交通管制（ATC）通信领域的研究。该数据集由Juan Zuluaga等人主导开发，涵盖了航空交通管制中的语音对话数据，并提供了丰富的注释信息，包括手动转录、伪标注以及命名实体识别（如呼号、指令和数值）。ATCO2语料库的发布填补了该领域缺乏大规模标注数据的空白，为开发数据驱动的AI系统提供了重要资源。其影响力不仅限于航空交通管制领域，还为通用ASR和NLU研究提供了新的实验平台。

当前挑战

ATCO2语料库的构建和应用面临多重挑战。首先，航空交通管制通信具有高度专业化的术语和复杂的上下文依赖关系，这对ASR和NLU模型的准确性提出了极高要求。其次，由于ATC通信环境的特殊性，语音数据通常伴随着高噪声和低信噪比，增加了数据处理的难度。此外，数据集的构建过程中，如何高效地收集、标注和验证大规模语音数据也是一个技术难题。尽管ATCO2语料库通过伪标注和自动化工具部分缓解了这一问题，但如何进一步提升标注质量仍是一个亟待解决的挑战。最后，如何在保护隐私和遵守法律的前提下获取和使用ATC通信数据，也是该领域研究的重要伦理和法律问题。

常用场景

经典使用场景

ATCO2语料库在航空交通管制（ATC）通信领域的自动语音识别（ASR）和自然语言理解（NLU）研究中具有广泛的应用。该数据集通过提供大规模的标注数据，支持研究人员开发能够在复杂环境下准确识别和解析ATC通信的AI系统。特别是在低资源领域，ATCO2语料库通过其丰富的语音数据和伪标注信息，显著提升了ASR和NLU模型的性能。

实际应用

ATCO2语料库在实际应用中具有广泛的价值。例如，航空公司和空中交通管理部门可以利用该数据集训练的ASR系统，实时转录和分析飞行员与管制员之间的通信，从而提高飞行安全和运营效率。此外，该数据集还可以用于开发智能对话系统，帮助管制员更高效地处理复杂的空中交通情况。通过ATCO2语料库，研究人员和工程师能够构建更加智能和可靠的ATC通信系统。

衍生相关工作

ATCO2语料库的发布催生了一系列相关研究工作。例如，基于该数据集，研究人员开发了BERTraffic模型，用于联合检测ATC通信中的说话者角色和说话者变化。此外，Wav2Vec 2.0模型在ATCO2语料库上的微调实验也展示了其在领域转移ASR任务中的卓越性能。这些研究工作不仅推动了ATC通信领域的技术进步，还为其他低资源领域的ASR和NLU研究提供了宝贵的经验。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集