mesolitica/Malaysian-STT-Whisper

Name: mesolitica/Malaysian-STT-Whisper
Creator: mesolitica
Published: 2025-07-14 01:49:36
License: 暂无描述

Hugging Face2025-07-14 更新2025-04-12 收录

下载链接：

https://hf-mirror.com/datasets/mesolitica/Malaysian-STT-Whisper

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于自动语音识别的 Whisper 格式数据集，支持多种语言，包括马来语、英语、中文、泰米尔语和印度尼西亚语。数据集经历了大量的后处理和后翻译，以改进伪标记的 Whisper Large V3 模型。它包含了单词级别的时间戳信息。数据集包括各种子集，如马来西亚语境、新加坡语境等。README中还概述了数据集的准备方法以及源代码仓库链接。

This dataset is a Whisper format for automatic speech recognition supporting multiple languages including Malay, English, Chinese, Tamil, and Indonesian. The dataset has undergone extensive postprocessing and post-translation to enhance pseudolabeled Whisper Large V3 models. It includes word-level timestamp information. The dataset comprises various subsets such as Malaysian context, Singaporean context, and others. The README also outlines the dataset preparation process and the source code repository link.

提供机构：

mesolitica

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个用于自动语音识别的多语言语音-文本数据集，主要包含马来语、英语和中文的音频转录对，并经过重后处理和翻译优化以提升伪标签质量。数据集规模较大，约1470万行，涵盖多种语境子集，且包含词级时间戳，适用于训练和微调语音识别模型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集