atc-draft-with-confidence-filter
收藏Hugging Face2026-03-20 更新2026-03-21 收录
下载链接:
https://huggingface.co/datasets/Trelis/atc-draft-with-confidence-filter
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为'atc-draft-with-confidence-filter',是一个语音数据集,由Trelis Studio准备。数据集包含12个训练样本,总时长为3.5分钟,源自2个源文件。数据集的列包括音频段(16kHz)、纯文本转录、带时间戳的转录、前一段的纯文本(用于条件预处理)、原始音频中的开始和结束时间、语音持续时间(不包括静音)、单词级时间戳(JSON格式)、源文件名和语言代码(ISO 639-1)。语音分割方法根据转录文件类型(.txt或.srt/.vtt)不同而有所区别,.txt转录使用CTC对齐生成单词级时间戳,而.srt/.vtt文件则使用转录时间戳定义段。训练使用分为2-bucket和4-bucket两种方法,前者使用纯文本转录和带时间戳的转录各占50%,后者则进一步细分为带和不带条件预处理的版本,各占25%。数据集适用于语音识别和语音处理任务,特别是那些需要处理时间戳和连续对话场景的任务。
提供机构:
Trelis
创建时间:
2026-03-20



