Malaysian-STT

Hugging Face2025-07-18 更新2025-07-19 收录

下载链接：

https://huggingface.co/datasets/malaysia-ai/Malaysian-STT

下载链接

链接失效反馈

官方服务：

资源简介：

Malaysian-STT是一个适用于训练流式或整体语音识别模型的马来语语音转文本数据集，包含多个配置，每个配置都有模式、级别、文本和音频文件名等特征。数据集包含了大量马来语的语音和对应的文本数据，可用于训练语音识别模型。

创建时间：

2025-07-11

原始信息汇总

Malaysian-STT 数据集概述

数据集基本信息

用途：适用于训练流式及完整模式的马来西亚语境语音转文本（Speech-to-Text）模型，支持流式LLM基础模型或编码器-解码器架构（如Whisper）。
包含内容：音频文件及其对应文本。

数据集配置

数据集包含6种配置，每种配置的特征和规模如下：

dialects
- 特征：
  - mode (string)
  - level (string)
  - texts (list of string)
  - audio_filenames (list of string)
- 数据量：
  - 训练集：3,992,572条样本，8,630,215,378字节
- 下载大小：2,725,747,740字节
- 数据集大小：8,630,215,378字节
imda
- 特征：
  - mode (string)
  - level (string)
  - texts (sequence of string)
  - audio_filenames (sequence of string)
- 数据量：
  - 训练集：10,754,832条样本，3,989,262,832字节
- 下载大小：1,050,102,748字节
- 数据集大小：3,989,262,832字节
malaysian
- 特征：
  - mode (string)
  - level (string)
  - texts (sequence of string)
  - audio_filenames (sequence of string)
- 数据量：
  - 训练集：885,084条样本，1,805,958,516字节
- 下载大小：560,831,926字节
- 数据集大小：1,805,958,516字节
parliament
- 特征：
  - mode (string)
  - level (string)
  - texts (sequence of string)
  - audio_filenames (sequence of string)
- 数据量：
  - 训练集：159,508条样本，242,188,408字节
- 下载大小：72,003,553字节
- 数据集大小：242,188,408字节
science_english
- 特征：
  - mode (string)
  - level (string)
  - texts (sequence of string)
  - audio_filenames (sequence of string)
- 数据量：
  - 训练集：708,872条样本，3,024,879,600字节
- 下载大小：1,048,448,692字节
- 数据集大小：3,024,879,600字节
synthetic
- 特征：
  - mode (string)
  - level (string)
  - texts (list of string)
  - audio_filenames (list of string)
- 数据量：
  - 训练集：19,290,180条样本，7,843,819,778字节
- 下载大小：2,116,157,659字节
- 数据集大小：7,843,819,778字节

数据准备

下载命令： bash huggingface-cli download --repo-type dataset --include *.zip --local-dir ./ --max-workers 20 malaysia-ai/Malaysian-STT wget https://gist.githubusercontent.com/huseinzol05/2e26de4f3b29d99e993b349864ab6c10/raw/9b2251f3ff958770215d70c8d82d311f82791b78/unzip.py python3 unzip.py

语音标记

说明：使用GLM4音频标记器将音频转换为语音标记。
下载命令： bash huggingface-cli download --repo-type dataset --include glm4-*.zip --local-dir ./ --max-workers 20 malaysia-ai/Malaysian-STT wget https://gist.githubusercontent.com/huseinzol05/2e26de4f3b29d99e993b349864ab6c10/raw/9b2251f3ff958770215d70c8d82d311f82791b78/unzip.py python3 unzip.py
标记总量：3,283,240,919个语音标记，相当于72,960.9小时。

致谢

特别感谢Lambda Research Grant program提供的Lambda云积分支持。

搜集汇总

数据集介绍

构建方式

在马来语语音识别研究领域，Malaysian-STT数据集通过多源异构数据的系统整合构建而成。该数据集采用模块化架构设计，包含方言、议会记录、科技英语等六个独立配置模块，每个模块均以标准化的方式组织音频文件与对应文本转录。数据采集过程注重场景覆盖度，既包含真实场景的议会辩论和科技讲座录音，也整合了合成语音数据以增强多样性。技术处理环节采用分布式下载策略，通过20个并行工作线程确保海量数据的高效获取，并配备专用解压脚本实现自动化预处理。

特点

作为面向马来语环境的语音识别基准数据集，其显著特征体现在多维度层次结构设计。数据按应用场景划分为流式与整体两种处理模式，并依据难度进行分级标注。技术层面，数据集不仅提供原始音频波形，还包含通过GLM4音频分词器生成的329亿个语音标记，相当于7.3万小时的标记化语音表征。数据规模达到千万级样本量，其中合成语音模块包含近2000万样本，为模型训练提供充分的泛化素材。各子集间保持结构统一性，均包含模式、难度等级、文本及音频路径四个标准字段。

使用方法

该数据集的使用遵循标准化技术流程，研究者可通过HuggingFace命令行工具实现高效下载。下载过程支持选择性获取，既可按需下载原始音频压缩包，也可单独获取语音标记数据。配套提供的Python解压脚本实现了自动化数据处理，显著降低使用门槛。在模型训练阶段，建议根据任务需求选择特定配置模块：议会数据适合训练正式场景识别模型，科技英语子集则适用于专业领域语音处理。数据集设计兼容流式与端到端两种语音识别架构，特别适配Whisper等编码器-解码器模型的训练需求。

背景与挑战

背景概述

Malaysian-STT数据集是针对马来西亚语境下的语音转文本（Speech-to-Text, STT）任务而构建的大规模数据集，由马来西亚人工智能研究团队主导开发，并得到Lambda研究资助计划的支持。该数据集旨在为流式及整体语音识别模型（如Whisper）的训练提供丰富的多场景语音文本配对资源，涵盖方言、议会演讲、科技英语等多种语境。其核心研究问题聚焦于解决低资源语言的语音识别难题，尤其在多方言混杂的马来西亚语境中提升模型的泛化能力与准确性。该数据集的发布显著推动了东南亚地区语音处理技术的发展，为跨语言语音识别研究提供了重要基准。

当前挑战

Malaysian-STT数据集面临的挑战主要体现在两方面：领域问题层面，马来西亚语言的多样性（如马来语、英语及多种方言的混杂）导致语音识别模型需处理复杂的音素变异和语境切换，传统单一语言模型难以适应；数据构建层面，真实场景语音的采集需克服背景噪音、发言人口音差异及文本标注一致性等问题，而合成数据虽可扩展规模，但可能引入与真实语音的分布偏差。此外，将音频转换为GLM4语音标记的过程需平衡信息保留与计算效率，这对大规模数据预处理提出了技术要求。

常用场景

经典使用场景

在语音识别技术的研究中，Malaysian-STT数据集因其包含马来西亚语境下的多种语音数据而成为经典选择。该数据集特别适用于训练流式语言模型或编码器-解码器架构，如Whisper模型。研究人员可以利用其丰富的方言和科学英语数据，探索多语言环境下的语音识别挑战。

实际应用

在实际应用中，Malaysian-STT数据集被广泛用于开发智能语音助手、自动字幕生成系统以及多语言客户服务工具。其丰富的语音数据支持企业优化马来西亚市场的语音交互体验，尤其在教育、政府和科技领域展现出显著的应用价值。

衍生相关工作

基于Malaysian-STT数据集，研究者们开发了多项经典工作，包括改进的流式语音识别模型和跨语言迁移学习框架。这些工作不仅推动了语音识别技术的发展，还为低资源语言处理提供了新的方法论，例如利用GLM4音频分词器进行高效的语音表示学习。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集