atc-train-1gb-5s
收藏Hugging Face2026-02-14 更新2026-02-15 收录
下载链接:
https://huggingface.co/datasets/Trelis/atc-train-1gb-5s
下载链接
链接失效反馈官方服务:
资源简介:
atc-train-1gb-5s 是一个专注于音频和语音的数据集,特别适用于 Whisper 模型。该数据集由 Trelis Studio 准备,包含 5 个源文件,773 个训练样本,总时长为 587.1 分钟。数据集中的每个样本包含以下字段:音频片段(16kHz,经过 VAD 处理去除静音)、纯文本转录、带 Whisper 时间戳标记的转录、原始音频中的片段开始和结束时间、语音持续时间(不包括静音)、单词级时间戳以及源文件名。音频片段经过 Silero VAD 处理,以确保训练数据与推理行为匹配。对于 Whisper 时间戳训练,建议使用两桶方法:50% 使用纯文本转录,50% 使用带时间戳标记的转录。
提供机构:
Trelis
创建时间:
2026-02-14
原始信息汇总
atc-train-1gb-5s 数据集概述
数据集简介
这是一个语音数据集,专为Whisper模型准备,由Trelis Studio处理生成。
数据集统计
| 指标 | 数值 |
|---|---|
| 源文件数量 | 5 |
| 训练样本数量 | 773 |
| 总时长 | 587.1分钟 |
数据列说明
| 列名 | 类型 | 描述 |
|---|---|---|
audio |
Audio | 音频片段(16kHz),经过语音活动检测(VAD)处理,仅保留语音部分,静音已被剥离。 |
text |
string | 纯文本转录(不含时间戳),向后兼容。 |
text_ts |
string | 包含Whisper时间戳标记的转录(例如:`< |
start_time |
string | 片段在原始音频中的开始时间(HH:MM:SS.mmm格式)。 |
end_time |
string | 片段在原始音频中的结束时间(HH:MM:SS.mmm格式)。 |
speech_duration |
float | 片段中语音的持续时间(不包括静音)。 |
word_timestamps |
list | 词级时间戳(相对于仅包含语音的音频)。 |
source_file |
string | 原始音频文件名。 |
语音活动检测(VAD)处理
音频片段使用Silero VAD进行处理,以匹配faster-whisper推理过程:
- 静音从音频中被剥离,仅保留语音区域。
- 时间戳是相对于拼接后的纯语音音频的。
- 这确保了训练数据与推理行为相匹配。
训练使用建议
对于Whisper时间戳训练,建议使用双桶方法:
- 桶 A (50%):使用
text列,即不含时间戳的纯文本转录。 - 桶 B (50%):使用
text_ts列,即包含Whisper时间戳标记的转录。
加载方式
python from datasets import load_dataset dataset = load_dataset("Trelis/atc-train-1gb-5s")
搜集汇总
数据集介绍

构建方式
在语音识别领域,高质量的训练数据对模型性能至关重要。该数据集通过Trelis Studio精心构建,从5个原始音频文件中提取出773个训练样本,总时长约587分钟。每个样本均采用Silero语音活动检测技术,自动剥离静音部分,仅保留语音区域,确保音频内容纯净。同时,数据集不仅提供纯文本转录,还包含符合Whisper格式的时间戳标记,支持细粒度的时序信息学习。
特点
该数据集在语音识别任务中展现出独特优势,其核心特征在于双转录格式的并存。一方面,纯文本转录字段便于传统语音识别模型的训练;另一方面,带有Whisper时间戳标记的转录文本,为时序感知模型提供了精确的锚点信息。此外,数据集还提供了词级时间戳和语音持续时间等元数据,增强了训练过程的灵活性与可控性。
使用方法
针对Whisper模型的训练需求,该数据集推荐采用双桶策略进行高效利用。具体而言,可将50%的样本用于纯文本转录训练,另外50%的样本则用于带时间戳的转录训练,从而平衡模型在不同任务上的表现。用户可通过Hugging Face的datasets库直接加载数据,并依据提供的字段灵活配置训练流程,实现端到端的语音识别模型优化。
背景与挑战
背景概述
在语音识别与音频处理领域,高质量、精细标注的数据集是推动模型性能提升的关键基石。atc-train-1gb-5s数据集由Trelis机构利用其专有的Trelis Studio工具构建,旨在服务于Whisper等先进语音识别模型的训练与优化。该数据集的核心研究问题聚焦于如何提供包含精确时间戳信息的语音转录数据,以支持模型不仅识别文本内容,还能理解语音的时间动态结构。其构建体现了对语音活动检测(VAD)技术的深度整合,通过剔除静默片段来模拟真实推理环境,从而增强模型在实际应用中的鲁棒性与准确性。
当前挑战
该数据集致力于解决语音识别中时序对齐的挑战,即模型需要准确预测语音片段中每个单词或音素的时间边界。这一任务对自动字幕生成、语音分析和人机交互等领域至关重要。在构建过程中,挑战主要源于数据预处理环节:首先,利用Silero VAD技术剥离静默区域,要求算法在多样声学环境下保持高精度的语音检测,避免误删或误留音频片段;其次,生成与Whisper模型兼容的时间戳标记,需确保时间信息与语音内容严格同步,同时维持数据格式的向后兼容性,这涉及复杂的时序计算与标准化处理。
常用场景
经典使用场景
在语音识别与处理领域,atc-train-1gb-5s数据集为端到端语音识别模型的训练提供了关键支持。该数据集通过VAD处理去除静音部分,保留了纯语音片段,并包含带时间戳的转录文本,特别适用于训练如Whisper等模型,以提升其在实时或流式语音识别任务中的准确性。其经典使用场景在于模拟真实环境下的语音输入,帮助模型学习从连续音频中精确识别并标注语音内容,为语音技术的优化奠定了数据基础。
衍生相关工作
基于atc-train-1gb-5s数据集,衍生出多项经典研究工作,主要集中在改进Whisper模型的时序预测能力和多模态语音处理。例如,研究者利用该数据集的双桶训练策略,开发了更高效的流式语音识别算法,优化了时间戳生成精度。此外,它还被用于探索语音与文本对齐的新方法,推动了语音识别领域在端到端学习和低延迟应用方面的创新进展。
数据集最近研究
最新研究方向
在语音识别领域,基于Whisper模型的细粒度时间戳预测正成为前沿热点,该数据集通过集成VAD预处理与多粒度标注,为模型训练提供了精准对齐的语音-文本对。研究聚焦于提升自动语音识别在实时转写、音视频同步等场景中的时序准确性,尤其在航空管制等专业领域,其词级与段级时间戳支持了端到端的时序建模,推动了语音技术向可解释、结构化方向发展。
以上内容由遇见数据集搜集并总结生成



