Jzuluaga/uwb_atcc|航空通信数据集|语音识别数据集

hugging_face2022-12-05 更新2024-03-04 收录

航空通信

语音识别

下载链接：

https://hf-mirror.com/datasets/Jzuluaga/uwb_atcc

下载链接

链接失效反馈

资源简介：

UWB-ATCC Corpus是由University of West Bohemia的Department of Cybernetics提供的航空交通控制语音通信数据集。该数据集包含飞行员与控制员之间的对话录音，总时长约20小时，音频格式为8kHz, 16bit PCM, mono。数据集中的每个记录包括音频、文本转录、时间戳和持续时间等详细信息，主要用于英语自动语音识别（ASR）任务的研究。

提供机构：

Jzuluaga

原始信息汇总

数据集概述

数据集名称

UWB-ATCC Corpus

数据集来源

提供者：University of West Bohemia, Department of Cybernetics

数据集内容

包含航空交通控制（ATCC）中的通信录音，涉及飞行员与控制员的对话。
语音数据已手动转录并标注了说话者信息（飞行员/控制员）。
音频数据格式：8kHz, 16bit PCM, mono。

数据集规模

当前规模：20小时
计划未来扩充数据。

数据集特征

id (string): 录音标识符，用于区分不同录音。
audio (audio): 音频数据，采样率为16000Hz。
text (string): 录音的转录文本。
segment_start_time (float32): 录音片段开始时间。
segment_end_time (float32): 录音片段结束时间。
duration (float32): 录音时长，计算方式为segment_end_time - segment_start_time。

数据集分割

train: 包含11291个样本，总大小为608597323.625字节。
test: 包含2822个样本，总大小为140620332.25字节。

数据集标签

audio
automatic-speech-recognition
en-atc
en
noisy-speech-recognition
speech-recognition

任务类别

automatic-speech-recognition

语言

en (英语)

多语言性

monolingual

许可证

cc-by-nc-sa-4.0

支持的任务

automatic-speech-recognition
已适配/微调模型：XLS-R-300m

AI搜集汇总

数据集介绍

构建方式

UWB-ATCC数据集由西波希米亚大学网络与控制系提供，其构建基于空中交通管制（ATC）通信的真实录音。这些录音涵盖了飞行员与空中交通管制员之间的对话，经过手动转录并标注了说话者的角色信息。数据集的音频格式为8kHz、16位PCM、单声道，总时长约为20小时。数据来源包括捷克领空的地面控制、塔台控制、进近控制和区域控制通信，分别对应不同的飞行阶段。

特点

UWB-ATCC数据集的主要特点在于其专注于空中交通管制通信，具有高度的领域特定性。数据集中的音频和文本均经过标准化处理，且提供了详细的元数据，如录音的开始和结束时间、持续时间等。此外，数据集通过ID字段区分了不同说话者的角色，如飞行员（PI）、管制员（AT）或两者混合（PIAT），为语音识别和说话者角色检测任务提供了丰富的标注信息。

使用方法

UWB-ATCC数据集适用于自动语音识别（ASR）任务，尤其是针对空中交通管制通信的领域适应性研究。用户可以通过HuggingFace平台直接访问该数据集，并利用提供的音频和文本数据进行模型训练和评估。数据集的音频采样率为16kHz，适合用于基于Wav2Vec 2.0等预训练模型的微调。此外，数据集的标注信息可用于说话者角色检测和语音分割任务，进一步扩展了其应用场景。

背景与挑战

背景概述

UWB-ATCC数据集由西波希米亚大学网络与控制系提供，专注于航空交通管制（ATC）通信的语音记录。该数据集包含了飞行员与空中交通管制员之间的对话，这些对话经过手动转录并标注了说话者的角色（如飞行员或管制员）。尽管目前数据集规模较小（约20小时），但其独特性在于其专注于特定领域，即航空交通管制通信，这对于自动语音识别（ASR）和文本转语音（TTS）系统的开发具有重要意义。该数据集的创建旨在解决特定领域语音识别的挑战，尤其是噪声环境下的语音识别问题。

当前挑战

UWB-ATCC数据集面临的主要挑战包括：首先，数据集规模较小，限制了模型的泛化能力；其次，航空交通管制通信的特殊性，如专业术语和噪声环境，增加了语音识别的难度。此外，数据集的构建过程中，如何确保转录的准确性和标注的一致性也是一个重要挑战。这些挑战不仅影响了数据集的实用性，也对相关领域的研究提出了更高的要求。

常用场景

经典使用场景

UWB-ATCC数据集的经典使用场景主要集中在自动语音识别（ASR）领域，特别是在航空交通管制（ATC）通信的语音识别任务中。该数据集包含了飞行员与空中交通管制员之间的对话录音，这些录音经过手动转录并标注了说话者的角色（如飞行员或管制员）。通过这些数据，研究人员可以训练和评估语音识别模型，以提高在嘈杂环境下的语音识别准确性，尤其是在复杂的ATC通信场景中。

实际应用

在实际应用中，UWB-ATCC数据集主要用于开发和优化航空交通管制系统中的语音识别技术。这些技术可以应用于自动化的语音转录、实时语音指令解析以及语音辅助决策系统，从而提高空中交通管理的效率和安全性。此外，该数据集还可用于训练语音合成（TTS）模型，以生成逼真的ATC语音指令，进一步推动航空通信技术的智能化发展。

衍生相关工作

基于UWB-ATCC数据集，研究人员开发了多项经典工作，包括基于Wav2Vec 2.0的语音识别模型和BERTraffic系统。Wav2Vec 2.0模型通过预训练和微调，展示了在ATC通信中的优异性能，而BERTraffic系统则专注于联合检测说话者角色和说话者变化，进一步提升了语音识别的准确性和鲁棒性。此外，ATCO2语料库的开发也借鉴了UWB-ATCC的经验，扩展了数据集的规模和应用范围，推动了航空通信领域的研究进展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Coffee_Shop_Sales

该数据集包含了咖啡店的详细交易信息，包括交易ID、日期、时间、店铺编号、位置、产品类别、类型、名称、价格、月份、日期、星期和小时等属性。数据集用于分析咖啡店的销售情况，如收入和交易量的变化趋势。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取；气象实测数据从气象站获取，气象站建于电站30号箱变附近，每5分钟将采集的数据通过光纤传输到机房；数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统（包括30TF计算刀片机、250TB并行存储）进行中尺度模式计算后输出预报产品，每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心收录

Oxford 102 Flowers

牛津102花卉数据集是一个主要用于图像分类的花卉集合数据集，分为102个类别，共102种花卉，其中每个类别包含40到258幅图像。该数据集由牛津大学工程科学系2008年在相关论文 “大量类别上的自动花分类” 中发布

OpenDataLab 收录