five

test-draft-asr-e2e

收藏
Hugging Face2026-03-06 更新2026-03-07 收录
下载链接:
https://huggingface.co/datasets/Trelis/test-draft-asr-e2e
下载链接
链接失效反馈
官方服务:
资源简介:
test-draft-asr-e2e 是一个为语音识别任务准备的音频数据集,使用 Trelis Studio 制作。数据集包含 1 个源文件,4 个训练样本,总时长为 2.1 分钟。数据集的列包括音频段(16kHz)、纯文本转录、带 Whisper 时间戳标记的转录、前一段的纯文本(用于条件预处理)、原始音频中的开始和结束时间、语音持续时间、词级时间戳(JSON 格式)、源文件名和语言代码(ISO 639-1)。语音分割通过 CTC 对齐或转录时间戳定义,将完整音频分割为约 20 秒的块。训练使用提供了两种方法:2-bucket 方法(50% 使用纯文本转录,50% 使用带时间戳的转录)和 4-bucket 方法(增加条件预处理,考虑前一段的上下文)。数据集适用于语音识别和连续对话建模任务。
提供机构:
Trelis
创建时间:
2026-03-06
原始信息汇总

test-draft-asr-e2e 数据集概述

数据集简介

这是一个使用 Trelis Studio 准备的语音数据集。

数据集统计

指标 数值
源文件数量 1
训练样本数量 4
总时长 2.1 分钟

数据列说明

列名 类型 描述
audio Audio 音频片段(16kHz)- 仅语音,从对齐区域中提取
text string 纯文本转录(无时间戳)
text_ts string 带有 Whisper 时间戳标记的转录
preconditioning string 前一片段的纯文本(每个源文件的第一个片段为空)
start_time string 片段在原始音频中的开始时间(HH:MM:SS.mmm)
end_time string 片段在原始音频中的结束时间(HH:MM:SS.mmm)
speech_duration float 片段中语音的持续时间(不包括静音)
word_timestamps string 词级时间戳,JSON格式(相对于仅语音的音频)
source_file string 原始音频文件名
language string 用于 Whisper 语言标记的 ISO 639-1 语言代码(例如 en, el

语音分割方法

  • 对于 .txt 转录文件,CTC 对齐产生定义语音边界的词级时间戳。完整音频被视为单个语音区域,并在词边界处分割成约 20 秒的块。
  • 对于 .srt/.vtt 文件,转录时间戳定义片段。
  • 时间戳相对于每个块内提取的语音音频。

训练使用方式

双桶方法(默认)

  • 桶 A (50%):使用 text 列 - 无时间戳的纯文本转录。
  • 桶 B (50%):使用 text_ts 列 - 带有 Whisper 时间戳标记的转录。

四桶方法(带前置条件)

  • 桶 A (25%):仅 text(无时间戳,无前置条件)。
  • 桶 A (25%)preconditioning + text(前一片段上下文,无时间戳)。
  • 桶 B (25%):仅 text_ts(有时间戳,无前置条件)。
  • 桶 B (25%)preconditioning + text_ts(前一片段上下文 + 时间戳)。

前置条件将前一片段的文本前置,以教导模型对话连续性。桶的比例在训练时可配置。

数据加载方式

python from datasets import load_dataset dataset = load_dataset("Trelis/test-draft-asr-e2e")

搜集汇总
数据集介绍
构建方式
在自动语音识别领域,数据集的精细构建对模型性能至关重要。test-draft-asr-e2e数据集依托Trelis Studio平台,通过先进的语音对齐与分割技术构建而成。对于包含.txt格式转录的音频,采用CTC对齐算法生成词级时间戳,以此界定语音边界,并将完整音频视为单一语音区域,在词边界处分割为约20秒的片段。若音频配有.srt或.vtt格式字幕,则直接依据转录时间戳定义语音片段。所有时间戳均相对于每个片段内提取的纯语音音频,确保了时间信息的精确性与一致性。
特点
该数据集在语音识别任务中展现出多维度结构化特征。其核心列包括16kHz纯语音音频片段、无时间戳的纯文本转录、以及包含Whisper时间戳标记的转录文本。尤为突出的是,数据集引入了“预条件”列,提供了前一片段的文本内容,旨在建模对话的连续性。此外,数据集还精确记录了片段在原始音频中的起止时间、语音实际时长、词级时间戳JSON数据、源文件名及ISO语言代码。这种丰富的元数据设计,为端到端ASR模型训练,特别是融入上下文感知与时间戳预测能力,提供了坚实的数据基础。
使用方法
为充分发挥数据集价值,其使用方案设计灵活且具针对性。主要提供两种训练策略:默认的“双桶”方法将数据均分为两部分,分别使用纯文本转录和带时间戳的转录进行训练;而“四桶”方法则进一步细分,额外引入了是否使用前序片段文本作为预条件上下文的维度,从而模拟更真实的对话流场景。用户可通过Hugging Face的`datasets`库便捷加载数据,并根据需要配置不同的桶比例,以适配多样化的模型训练目标,例如提升转录准确性或增强时间戳预测与上下文连贯性建模能力。
背景与挑战
背景概述
在语音识别技术持续演进的背景下,端到端自动语音识别模型已成为研究热点,旨在直接从音频信号生成文本转录。test-draft-asr-e2e数据集由Trelis Studio构建,专注于为基于Whisper等先进模型提供训练与评估资源。该数据集通过精心设计的语音分段与多模态标注,支持模型学习带时间戳的转录及上下文连续性,其核心研究问题在于提升语音识别在时序对齐与对话连贯性方面的性能,对推动端到端语音识别系统的实用化具有重要影响。
当前挑战
该数据集旨在应对端到端语音识别中时序对齐与上下文建模的挑战,具体包括准确生成词级时间戳以支持细粒度音频分析,以及利用预处理机制增强模型对连续对话的理解能力。在构建过程中,挑战主要源于语音分段的技术复杂性,需通过CTC对齐或外部字幕文件精确提取语音区域,并确保时间戳相对于纯语音音频的准确性,同时处理多语言环境下的标注一致性,以保障数据质量与模型训练的可靠性。
常用场景
经典使用场景
在语音识别领域,端到端模型训练依赖于高质量、结构化的语音-文本对齐数据。test-draft-asr-e2e数据集通过提供精细的语音分段、时间戳标注及上下文信息,成为训练和评估现代自动语音识别系统的经典资源。其设计支持多桶训练策略,允许模型同时学习无时间戳的纯文本转录与带时间戳的细粒度对齐,从而优化模型在连续语音流中的识别准确性与鲁棒性。
实际应用
在实际应用中,test-draft-asr-e2e数据集可广泛应用于智能语音助手、实时字幕生成、会议记录转录等场景。其精细的时间戳支持音视频内容的精准对齐,适用于多媒体索引与检索系统;而预条件上下文信息则有助于提升对话式语音识别系统的连贯性,改善用户体验。该数据集为工业级语音处理流水线提供了可扩展的训练数据范例。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在端到端语音识别模型的优化与扩展。例如,基于其多桶训练框架的研究探索了时间戳预测与文本生成的联合建模;利用预条件信息的实验则推动了上下文感知语音识别技术的发展。此外,该数据集的结构化标注启发了跨语言语音识别中统一时间对齐方法的研究,为后续大规模多模态语音数据集的构建提供了参考范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作