atc-train-1gb-0.5s

Name: atc-train-1gb-0.5s
Creator: Trelis
Published: 2026-02-14 01:14:49
License: 暂无描述

Hugging Face2026-02-14 更新2026-02-15 收录

下载链接：

https://huggingface.co/datasets/Trelis/atc-train-1gb-0.5s

下载链接

链接失效反馈

官方服务：

资源简介：

atc-train-1gb-0.5s 是一个专为 Whisper 模型准备的语音数据集，由 Trelis Studio 制作。该数据集包含 5 个源文件，共计 3697 个训练样本，总时长为 587.1 分钟。数据集中的每个样本包含以下字段：16kHz 的音频片段（经过 VAD 处理去除了静音部分）、纯文本转录、带有 Whisper 时间戳标记的转录、原始音频中的片段开始和结束时间、语音持续时间（不包括静音）、单词级时间戳以及源文件名。音频片段经过 Silero VAD 处理，以确保训练数据与推理行为匹配。数据集适用于 Whisper 时间戳训练，建议采用两桶方法：50% 使用纯文本转录，50% 使用带时间戳标记的转录。

提供机构：

Trelis

创建时间：

2026-02-14

原始信息汇总

atc-train-1gb-0.5s 数据集概述

数据集简介

这是一个语音数据集，专为Whisper模型准备，使用Trelis Studio工具制作。

数据集统计

源文件数量：5
训练样本数量：3697
总时长：587.1分钟

数据列说明

列名	类型	描述
`audio`	Audio	音频片段（16kHz），仅包含语音，已通过语音活动检测去除静音
`text`	string	纯文本转录（不含时间戳），向后兼容
`text_ts`	string	包含Whisper时间戳标记的转录（例如：`<
`start_time`	string	片段在原始音频中的开始时间（HH:MM:SS.mmm格式）
`end_time`	string	片段在原始音频中的结束时间（HH:MM:SS.mmm格式）
`speech_duration`	float	片段中语音的持续时间（不包括静音）
`word_timestamps`	list	词级时间戳（相对于仅包含语音的音频）
`source_file`	string	原始音频文件名

语音活动检测处理

音频片段使用Silero VAD进行处理，以匹配faster-whisper推理过程：

静音已从音频中去除（仅保留语音区域）
时间戳相对于拼接后的纯语音音频
这确保了训练数据与推理行为一致

训练使用建议

对于Whisper时间戳训练，建议使用双桶方法：

桶A（50%）：使用 text 列（不含时间戳的纯文本转录）
桶B（50%）：使用 text_ts 列（包含Whisper时间戳标记的转录）

数据加载方式

python from datasets import load_dataset dataset = load_dataset("Trelis/atc-train-1gb-0.5s")

搜集汇总

数据集介绍

构建方式

在语音识别研究领域，数据集的构建质量直接影响模型性能。atc-train-1gb-0.5s数据集通过Trelis Studio精心制备，其构建过程体现了对语音信号处理的深度考量。原始音频首先经过Silero VAD系统进行语音活动检测，精确剥离静默部分，仅保留纯净的语音区域。这一处理确保了音频片段与后续推理环境的行为一致性。所有语音片段被统一采样至16kHz，并辅以精细的文本标注，包括带时间戳与不带时间戳的双版本转录，形成了共计3697个训练样本、总时长约587分钟的高质量语音数据集合。

使用方法

为充分发挥数据集在语音识别模型训练中的作用，研究者可采用特定的训练策略。通过Hugging Face的datasets库加载数据集后，建议实施双桶训练方法：将50%的数据样本使用纯文本转录进行训练，另外50%则采用带Whisper时间戳标记的文本进行训练。这种混合训练模式既能保持模型对传统转录任务的能力，又能使其学习并预测语音片段中的时间信息。数据集中提供的音频列可直接输入语音识别模型，而丰富的元数据列则为模型的可解释性分析与后续处理流程提供了便利。

背景与挑战

背景概述

在自动语音识别技术快速演进的背景下，高精度、细粒度的语音数据集成为推动模型性能突破的关键。atc-train-1gb-0.5s数据集由Trelis机构构建，专注于为Whisper等先进语音识别模型提供训练支持。该数据集的核心研究问题在于解决语音转录中的时间戳对齐难题，通过集成语音活动检测与词级时间戳标注，旨在提升模型在实时语音处理场景下的准确性与鲁棒性。其设计反映了当前语音处理领域对时序信息精细化建模的迫切需求，为端到端语音识别系统的优化提供了重要数据基础。

当前挑战

该数据集致力于应对语音识别中时序标注的复杂性挑战，传统方法往往难以在连续语音流中精确划分词边界与时间对齐。构建过程中，需克服语音活动检测的敏感性，确保静音剔除不影响语音连贯性；同时，时间戳标注需与Whisper模型推理行为保持一致，涉及多层级时间信息的同步与标准化。这些技术难点要求数据预处理流程兼具高精度与高效性，以保障训练数据与真实应用场景的无缝对接。

常用场景

经典使用场景

在语音识别与处理领域，atc-train-1gb-0.5s数据集为自动语音识别模型的训练与优化提供了关键支持。该数据集通过VAD技术去除静音部分，保留了纯净的语音片段，并附带了带时间戳的文本转录，特别适用于训练如Whisper等先进模型，以提升其在嘈杂环境下的识别精度和时间对齐能力。

解决学术问题

该数据集有效解决了语音识别研究中常见的时序对齐和静音处理难题。通过提供精确的词级时间戳和静音剥离后的语音片段，它支持模型学习更准确的语音边界识别，从而改善转录的时序一致性，这对于语音转文本任务中的实时应用和多媒体内容分析具有重要意义。

实际应用

在实际应用中，atc-train-1gb-0.5s数据集可广泛应用于智能助手、实时字幕生成和语音控制系统中。其高质量的标注数据能够提升模型在航空通信、会议记录等专业场景下的性能，确保语音识别系统在复杂声学环境中仍能保持高可靠性和低延迟。

数据集最近研究