Jzuluaga/atco2_corpus_1h

Name: Jzuluaga/atco2_corpus_1h
Creator: Jzuluaga
Published: 2022-12-05 11:15:31
License: 暂无描述

Hugging Face2022-12-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Jzuluaga/atco2_corpus_1h

下载链接

链接失效反馈

官方服务：

资源简介：

ATCO2测试集语料库（1小时集）是一个用于自动语音识别任务的数据集，包含音频和文本数据。数据集的结构包括id、audio、text、segment_start_time、segment_end_time和duration等字段。数据集的语言为英语，且为单语种。数据集来源于ATCO2项目，该项目旨在收集、组织和预处理来自空域的空中交通控制（语音通信）数据。数据集包含5000+小时的伪转录语音数据和4小时的转录语音数据，其中4小时的数据是免费样本。数据集还提供了相关的论文和模型链接。

The ATCO2 test set corpus (1-hour subset) is a dataset for automatic speech recognition (ASR) tasks, containing both audio and text data. Its structure includes fields such as id, audio, text, segment_start_time, segment_end_time, and duration. This is a monolingual English dataset. It is derived from the ATCO2 project, which aims to collect, organize and preprocess air traffic control (voice communication) data from airspace. The overall dataset of the ATCO2 project includes over 5,000 hours of pseudo-transcribed speech data and 4 hours of manually transcribed speech data, among which the 4-hour subset is the free sample. Relevant research papers and model links are also provided for this dataset.

提供机构：

Jzuluaga

原始信息汇总

数据集概述

数据集名称

ATCO2 test set corpus (1hr set)

数据集特征

id: 字符串类型，录音标识符。
audio: 音频类型，采样率为16000。
text: 字符串类型，文件的转录文本。
segment_start_time: 浮点数类型，段开始时间。
segment_end_time: 浮点数类型，段结束时间。
duration: 浮点数类型，录音时长，计算方式为segment_end_time - segment_start_time。

数据集结构

测试集: 包含871个样本，总大小为113872168.0字节。

语言和标签

语言: 英语
标签: 音频、自动语音识别、英语、噪声语音识别、语音识别

任务支持

自动语音识别

许可证信息

许可证详情请参阅文件ATCO2-ASRdataset-v1_beta - End-User Data Agreement。

引用信息

引用该数据集的文献包括：
- Zuluaga-Gomez, Juan et al. "How Does Pre-trained Wav2Vec2. 0 Perform on Domain Shifted ASR? An Extensive Benchmark on Air Traffic Control Communications."
- Zuluaga-Gomez, Juan et al. "BERTraffic: BERT-based Joint Speaker Role and Speaker Change Detection for Air Traffic Control Communications."
- Zuluaga-Gomez, Juan et al. "ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech Recognition and Natural Language Understanding of Air Traffic Control Communications."

搜集汇总

数据集介绍

构建方式

Jzuluaga/atco2_corpus_1h数据集的构建，是基于航空交通管制通讯的实时语音数据，这些数据通过公开可访问的无线电频率通道或航空导航服务提供商（ANSPs）间接收集。数据集包含5000小时以上的伪转录航空交通管制语音，以及4小时已转录的语音。语音数据以.wav格式存储，同时提供正则化的文本转录。数据集中的语音片段时长通过计算片段结束时间与开始时间的差值得到，确保了数据在时间轴上的精确标注。

特点

该数据集的特点在于其内容的真实性和多样性，涵盖了不同机场的航空交通管制语音。数据集不仅包含男性与女性的语音，还包括母语和非母语英语说话者的语音。此外，数据集提供了丰富的元数据信息，如说话者噪声信息、信噪比（SNR）值等，为自动语音识别和自然语言理解的研究提供了宝贵的资源。数据集的构建旨在促进航空交通管制通信领域的研究和应用。

使用方法

使用Jzuluaga/atco2_corpus_1h数据集时，用户可以访问音频数据和对应的文本转录。数据集中的每个示例都有一个唯一的记录标识符，方便数据的管理和检索。用户需遵守数据的使用协议，并可以引用相关论文以正确引用数据集。此外，已有一些预训练模型（如Wav2Vec 2.0 LARGE模型）可在此基础上进行微调和评估，以便更好地适应特定任务需求。

背景与挑战

背景概述

ATCO2数据集是航空交通控制通信领域的重要资源，旨在构建一个独特的平台，以收集、组织及预处理空中交通（语音通信）数据。该项目获得了Clean Sky 2联合企业（JU）的资助，并得到了欧盟‘地平线2020’研究创新计划的支持。该数据集涵盖了5000小时以上的空中交通控制语音通信记录，以及4小时经过转录的通信记录，这些记录来自不同机场的实时语音通信，包含了男女比例约为90/10的英语母语及非母语者的语音数据。ATCO2数据集的构建，为自动语音识别和自然语言理解的研究提供了丰富的资源，对相关领域产生了显著影响。

当前挑战

该数据集在构建过程中面临的挑战主要包括：确保收集到的语音数据的质量和多样性，以适应不同机场和不同操作环境的需要；对语音数据进行精确的转录和标注，以提供高质量的训练和测试数据；以及处理数据隐私和授权的复杂问题，确保遵守相关法律法规。在研究领域，该数据集面临的挑战包括如何有效地处理噪声环境下的语音识别问题，以及如何提高对特定领域术语和表达的识别准确性。

常用场景

经典使用场景

在自动语音识别领域，Jzuluaga/atco2_corpus_1h数据集的经典使用场景主要在于对航空交通控制通信的语音进行识别。该数据集包含了实际空中交通控制器与飞行员之间的通信录音，为研究者提供了丰富的语音样本，以训练和评估语音识别模型的性能。

解决学术问题

该数据集解决了航空交通控制通信中噪声环境下的语音识别问题，以及不同性别、母语和非母语说话人之间的语音识别差异问题。它对于提升语音识别技术在特定领域和复杂环境下的准确性和鲁棒性具有重要意义。

衍生相关工作

基于Jzuluaga/atco2_corpus_1h数据集，已经衍生出了一系列相关研究工作，如使用预训练的Wav2Vec2.0模型在领域偏移的语音识别任务上的表现研究，以及基于BERT的航空交通通信中的说话人角色和说话人变化检测研究，这些工作进一步推动了航空通信领域的语音识别技术发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集