five

1gb-test-energy-nopack

收藏
Hugging Face2026-02-13 更新2026-02-14 收录
下载链接:
https://huggingface.co/datasets/Trelis/1gb-test-energy-nopack
下载链接
链接失效反馈
官方服务:
资源简介:
1gb-test-energy-nopack 是一个专门为 Whisper 时间戳训练准备的语音数据集,使用 Trelis Studio 工具构建。数据集包含 5 个源文件,共计 587.1 分钟的语音内容,其中训练样本 1125 个,验证样本 50 个。所有音频片段均经过 Silero VAD 处理,去除了静音部分,仅保留语音区域,采样率为 16kHz。数据集提供丰富的标注信息,包括:纯文本转录(text)、带 Whisper 时间戳标记的转录(text_ts)、片段在原音频中的起止时间、语音持续时间(排除静音)、词级时间戳(相对于纯语音音频)以及源文件名。特别设计了两种训练方式:50%样本使用纯文本转录,50%样本使用带时间戳的转录。该数据集主要适用于语音识别模型(特别是 Whisper 模型)的时间戳预测训练任务。
提供机构:
Trelis
创建时间:
2026-02-13
原始信息汇总

数据集概述

基本信息

  • 数据集名称:1gb-test-energy-nopack
  • 主要用途:语音识别与Whisper时间戳训练
  • 数据来源:通过Trelis Studio准备

数据集统计

  • 源文件数量:5
  • 训练样本数量:1125
  • 验证样本数量:50
  • 总时长:587.1分钟

数据列结构

列名 类型 描述
audio Audio 音频片段(16kHz)- 仅包含语音,已通过VAD去除静音
text string 纯文本转录(无时间戳)- 向后兼容
text_ts string 包含Whisper时间戳标记的转录(例如:`<
start_time string 片段在原始音频中的开始时间(HH:MM:SS.mmm)
end_time string 片段在原始音频中的结束时间(HH:MM:SS.mmm)
speech_duration float 片段中语音的持续时间(不包括静音)
word_timestamps list 词级时间戳(相对于仅包含语音的音频)
source_file string 原始音频文件名

语音活动检测(VAD)处理

  • 使用Silero VAD处理音频片段以匹配faster-whisper推理。
  • 从音频中去除静音(仅保留语音区域)。
  • 时间戳相对于拼接后的纯语音音频。
  • 确保训练数据与推理行为一致。

训练使用建议

针对Whisper时间戳训练,建议采用双桶方法:

  • 桶A(50%):使用text列(纯文本转录,无时间戳)。
  • 桶B(50%):使用text_ts列(包含Whisper时间戳标记的转录)。

加载方式

python from datasets import load_dataset dataset = load_dataset("Trelis/1gb-test-energy-nopack")

搜集汇总
数据集介绍
main_image_url
构建方式
在语音识别领域,高质量数据集的构建对模型性能至关重要。该数据集通过Trelis Studio平台精心制备,原始音频经过严格的语音活动检测处理,采用Silero VAD技术精准剥离静音部分,仅保留纯净语音区域。处理过程中,时间戳信息均基于拼接后的语音音频进行对齐,确保训练数据与推理行为的一致性。数据集包含5个源文件,共计1125个训练样本和50个验证样本,总时长约587分钟,每个样本均配备多维度标注信息。
特点
本数据集的核心特征体现在其精细化的标注体系与多模态数据结构的融合。音频数据统一采样为16kHz,并配备三种不同格式的文本标注:纯净文本转录、包含Whisper时间戳标记的增强转录,以及精确到单词级别的时间戳列表。这种多层次标注结构特别适用于语音识别与时间戳预测的联合训练任务。数据集中每个样本均包含原始音频文件名、语音段起止时间、纯语音时长等元数据,为模型训练提供了丰富的上下文信息。
使用方法
针对Whisper模型的时间戳训练需求,数据集设计了创新的双桶训练策略。在实际应用中,建议将50%的训练样本使用纯净文本转录进行常规语音识别训练,另外50%则采用包含时间戳标记的增强文本进行时间戳预测专项训练。研究人员可通过Hugging Face数据集库直接加载使用,导入后即可访问音频波形、多格式文本标注及时间戳等完整字段,为端到端语音识别系统的开发提供了标准化数据接口。
背景与挑战
背景概述
随着自动语音识别技术的飞速发展,高质量、精细化标注的语音数据集成为推动模型性能突破的关键。1gb-test-energy-nopack数据集由Trelis机构基于其开发的Trelis Studio平台构建,专注于为Whisper等先进语音识别模型提供训练与评估资源。该数据集的核心研究问题在于解决语音识别中时序对齐的精确性,通过集成语音活动检测技术剥离静音部分,并引入细粒度的词级时间戳标注,旨在提升模型在真实场景下对语音内容与时间结构的联合理解能力,对推动端到端语音识别系统的实用化演进具有显著影响力。
当前挑战
在语音识别领域,模型不仅需要准确转录音频内容,还需精确预测语音单元的时间边界,这对时序建模提出了严峻挑战。1gb-test-energy-nopack数据集针对此问题,通过提供带有时序标记的文本,旨在助力模型克服长音频对齐、噪声干扰下的时间戳估计等难题。在构建过程中,数据集面临语音活动检测的精度把控、静音剥离后时间戳的连贯性校正,以及多源音频文件间标注一致性的维护等挑战,这些因素共同考验着数据预处理流程的鲁棒性与标准化水平。
常用场景
经典使用场景
在语音识别与音频处理领域,该数据集专为训练和评估Whisper等自动语音识别模型而设计,尤其侧重于时间戳预测任务。其经典使用场景涉及模型微调,通过提供包含精确时间戳标注的语音片段,使模型能够学习语音与文本之间的时序对齐关系。数据集采用双桶训练策略,结合纯文本转录和时间戳增强转录,有效模拟实际推理环境,提升模型在复杂音频场景下的鲁棒性和准确性。
实际应用
在实际应用中,该数据集支持多种语音技术部署,包括实时语音转写、会议记录自动化以及多媒体内容字幕生成。其时间戳标注特性使得模型能够精确输出语音片段的起止时间,适用于视频编辑、教育辅助工具和司法笔录等场景。通过提供高质量的语音-文本对齐数据,它助力开发更高效的音频分析系统,满足媒体制作、远程协作等领域对时序敏感语音处理的需求。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在Whisper模型的扩展与优化上,例如基于时间戳的语音识别微调框架、多语言语音对齐算法以及低延迟推理引擎的开发。这些研究利用数据集的时序标注优势,探索了语音识别与自然语言处理的交叉应用,如音频摘要生成和语音驱动交互系统。相关工作进一步推动了开源语音工具链的完善,为社区提供了可复现的实验基准和技术范例。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作