five

atc-voxtral-confidence-stats-test

收藏
Hugging Face2026-03-20 更新2026-03-21 收录
下载链接:
https://huggingface.co/datasets/Trelis/atc-voxtral-confidence-stats-test
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于语音处理的音频数据集,由Trelis Studio准备。数据集包含13个训练样本,总时长为3.5分钟。每个样本包含以下字段:音频片段(16kHz,仅包含对齐区域的语音)、纯文本转录(无时间戳)、带Whisper时间戳标记的转录、前一段落的纯文本(每个源文件的第一个段落为空)、原始音频中的开始和结束时间(HH:MM:SS.mmm格式)、语音持续时间(不包括静音)、单词级时间戳(JSON格式,相对于仅语音的音频)、原始音频文件名以及Whisper语言标记的ISO 639-1语言代码(如'en'、'el')。数据集支持两种训练方法:默认的2-bucket方法(50%使用纯文本转录,50%使用带时间戳的转录)和4-bucket方法(包括带和不带前一段落上下文的变体)。该数据集适用于语音识别和语音处理任务。

This is an audio dataset for speech processing prepared by Trelis Studio. The dataset contains 13 training samples with a total duration of 3.5 minutes. Each sample includes the following fields: audio clip (16kHz, containing only aligned speech segments), plain text transcription (without timestamps), transcription with Whisper timestamps, plain text of the previous paragraph (empty for the first paragraph of each source file), start and end timestamps in the original audio (in HH:MM:SS.mmm format), speech duration (excluding silence), word-level timestamps (JSON format, relative to the speech-only audio), original audio filename, and ISO 639-1 language code of the language identified by Whisper. The dataset supports two training methods: the default 2-bucket approach (50% using plain text transcriptions and 50% using transcriptions with timestamps) and the 4-bucket approach (including variants with and without previous paragraph context). This dataset is suitable for speech recognition and speech processing tasks.
提供机构:
Trelis
创建时间:
2026-03-20
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作