five

mesolitica/Malaysian-STT-Whisper

收藏
Hugging Face2025-07-14 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/mesolitica/Malaysian-STT-Whisper
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于自动语音识别的 Whisper 格式数据集,支持多种语言,包括马来语、英语、中文、泰米尔语和印度尼西亚语。数据集经历了大量的后处理和后翻译,以改进伪标记的 Whisper Large V3 模型。它包含了单词级别的 时间戳信息。数据集包括各种子集,如马来西亚语境、新加坡语境等。README中还概述了数据集的准备方法以及源代码仓库链接。

This dataset is a Whisper format for automatic speech recognition supporting multiple languages including Malay, English, Chinese, Tamil, and Indonesian. The dataset has undergone extensive postprocessing and post-translation to enhance pseudolabeled Whisper Large V3 models. It includes word-level timestamp information. The dataset comprises various subsets such as Malaysian context, Singaporean context, and others. The README also outlines the dataset preparation process and the source code repository link.
提供机构:
mesolitica
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个用于自动语音识别的多语言语音-文本数据集,主要包含马来语、英语和中文的音频转录对,并经过重后处理和翻译优化以提升伪标签质量。数据集规模较大,约1470万行,涵盖多种语境子集,且包含词级时间戳,适用于训练和微调语音识别模型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作