five

Shiry/ATC_combined

收藏
Hugging Face2023-04-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Shiry/ATC_combined
下载链接
链接失效反馈
官方服务:
资源简介:
UWB-ATCC语料库由西波西米亚大学网络工程系提供,包含空中交通管制员与飞行员之间的通信录音。这些录音经过人工转录,并标注了说话者角色(飞行员/管制员)。语料库目前较小(20小时),但计划在未来扩展。音频数据格式为8kHz、16bit PCM、单声道。数据集支持自动语音识别任务,并且已经有一些预训练模型可用。数据集的语言为英语,主要来源于捷克空域的ATC通信录音。数据集的结构包括id、audio、text、segment_start_time、segment_end_time和duration等字段。

UWB-ATCC语料库由西波西米亚大学网络工程系提供,包含空中交通管制员与飞行员之间的通信录音。这些录音经过人工转录,并标注了说话者角色(飞行员/管制员)。语料库目前较小(20小时),但计划在未来扩展。音频数据格式为8kHz、16bit PCM、单声道。数据集支持自动语音识别任务,并且已经有一些预训练模型可用。数据集的语言为英语,主要来源于捷克空域的ATC通信录音。数据集的结构包括id、audio、text、segment_start_time、segment_end_time和duration等字段。
提供机构:
Shiry
原始信息汇总

数据集概述

数据集名称

  • UWB-ATCC Corpus

数据集来源

  • 提供方:University of West Bohemia, Department of Cybernetics

数据集内容

  • 包含空中交通控制员与飞行员之间的通信录音。
  • 语音内容已手动转录并标记了说话者信息(飞行员/控制员)。
  • 音频数据格式:8kHz, 16bit PCM, mono。

数据集规模

  • 当前规模:20小时。
  • 计划未来扩充数据。

数据集特征

  • id (string): 录音标识符,指示说话者角色(如_PI表示只有飞行员语音,_AT表示只有控制员语音,PIAT表示两者都有)。
  • audio (audio): 音频数据,采样率为16000Hz。
  • text (string): 文件的转录文本。
  • segment_start_time (float32): 段落开始时间。
  • segment_end_time (float32): 段落结束时间。
  • duration (float32): 录音时长,计算方式为segment_end_time - segment_start_time

数据集分割

  • test: 4723个样本,612270626字节。
  • train: 18929个样本,2543440112字节。

语言和多语言性

  • 语言:英语。
  • 多语言性:单语种。

许可

任务类别

  • 自动语音识别。

支持的任务和模型

  • 自动语音识别任务。
  • 已适配/微调的模型:XLS-R-300m

数据集引用信息

@article{vsmidl2019air, title={Air traffic control communication (ATCC) speech corpora and their use for ASR and TTS development}, author={{v{S}}m{\i}dl, Lubo{v{s}} and {v{S}}vec, Jan and Tihelka, Daniel and Matou{v{s}}ek, Jind{v{r}}ich and Romportl, Jan and Ircing, Pavel}, journal={Language Resources and Evaluation}, volume={53}, number={3}, pages={449--464}, year={2019}, publisher={Springer} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由西波希米亚大学网络与控制系统系提供,包含飞行控制器与飞行员之间的通信录音,并伴有手动的语音转录和标注说话者信息(飞行员/控制器)。数据集录音格式为8kHz,16bit PCM,单声道。每条记录包含录音的唯一标识符、音频数据、文本转录、片段起始时间、片段结束时间和录音时长。该数据集的构建采用了领域内的专业知识和细致的人工标注,确保了数据的质量和可用性。
特点
Shiry/ATC_combined数据集的特点在于其专注于航空交通控制通信领域,包含了不同控制场景下的通信记录,如地面控制、塔台控制、进近控制和区域控制。数据集虽小,但具有高度的专业性和针对性,适用于自动语音识别等任务。此外,数据集遵循Creative Commons - Attribution-NonCommercial-ShareAlike 4.0国际许可,保证了合法合规的使用。
使用方法
使用该数据集时,用户可以依据记录的唯一标识符获取说话者角色,如仅飞行员、仅控制器或飞行员与控制器同时存在的片段。数据集适用于自动语音识别等研究任务,用户可以通过HuggingFace提供的平台轻松访问和下载数据。在使用前,建议用户了解数据集的许可协议,并遵循相关规定进行合理使用。
背景与挑战
背景概述
在自动语音识别领域,UWB-ATCC语料库由西波希米亚大学网络安全部门提供,该数据集包含空中交通管制员与飞行员之间的通信录音。这些录音经过手动转录,并标注了说话者的信息(管制员或飞行员,非个人身份)。尽管当前数据集规模较小(20小时),但研究团队计划明年寻找更多数据。该数据集的创建,旨在推动自动语音识别与文本到语音技术的发展,特别是在空中交通控制通信这一特定领域。数据集的构建利用了研究团队工业合作伙伴获取的捷克领空内的ATC通信录音资源。
当前挑战
该数据集在构建过程中面临的挑战主要包括:确保通信录音的多样性与代表性,以涵盖不同类型的空中交通控制场景;在标注过程中保持高准确性,以正确区分飞行员与管制员的对话;以及在数据集规模扩大时,维持数据质量的一致性。在研究领域问题上,UWB-ATCC语料库所面临的挑战包括如何提高自动语音识别系统在噪声环境下的鲁棒性,以及如何适应不同说话者角色和不同通信场景下的领域迁移性。
常用场景
经典使用场景
在自动语音识别的研究与应用领域,Shiry/ATC_combined数据集因其特有的领域语音特征而备受青睐。该数据集主要由航空交通管制中的通信录音构成,为研究者提供了一个珍贵的语音样本库,可用于训练和评估模型在噪声环境下的语音识别性能。
解决学术问题
该数据集解决了传统语音识别模型在特定领域,尤其是在噪声干扰下的适应性不足问题。通过提供航空交通管制员的实际通信录音,Shiry/ATC_combined数据集使得研究者在模型训练时能够针对这些特定环境进行优化,进而提升模型的鲁棒性和准确性。
衍生相关工作
基于Shiry/ATC_combined数据集,研究者们已经衍生出了一系列相关工作,包括针对航空交通管制语音的自动语音识别模型、说话人角色识别和说话人变化检测等任务的研究,这些工作进一步扩展了该数据集的应用范围,并推动了相关领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作