pseudolabel-dialects-youtube-whisper-large-v3

Hugging Face2025-07-15 更新2025-07-15 收录

下载链接：

https://huggingface.co/datasets/malaysia-ai/pseudolabel-dialects-youtube-whisper-large-v3

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个由malaysia-ai创建的数据集，名为pseudolabel-dialects-youtube-whisper-large-v3，它是基于malaysia-ai/malaysian-dialects-youtube数据集使用openai/whisper-large-v3模型生成的伪标签。数据集包含音频文件名和文本，适用于训练和评估。训练集大小为8361492个示例，数据集总大小为2.22GB。

This is a dataset developed by malaysia-ai, titled pseudolabel-dialects-youtube-whisper-large-v3. It generates pseudolabels based on the malaysia-ai/malaysian-dialects-youtube dataset via the openai/whisper-large-v3 model. The dataset contains audio filenames and their corresponding transcriptions, and is suitable for model training and evaluation. The training set includes 8,361,492 samples, with a total dataset size of 2.22 GB.

创建时间：

2025-07-08

原始信息汇总

数据集概述：malaysia-ai/pseudolabel-dialects-youtube-whisper-large-v3

数据集基本信息

来源：基于malaysia-ai/malaysian-dialects-youtube生成伪标签
生成工具：使用openai/whisper-large-v3模型生成伪标签

数据集结构

特征字段：
- audio_filename：音频文件名（字符串类型）
- text：文本内容（字符串类型）
数据划分：
- train：训练集
  - 样本数量：8,361,492
  - 数据大小：2,229,329,827字节（约2.23GB）
下载信息：
- 下载大小：1,220,920,889字节（约1.22GB）
- 数据集存储大小：2,229,329,827字节（约2.23GB）

数据准备方法

使用huggingface-cli下载数据集： bash huggingface-cli download --repo-type dataset --include *.zip --local-dir ./ --max-workers 20 malaysia-ai/pseudolabel-dialects-youtube-whisper-large-v3
下载并运行解压脚本： bash wget https://gist.githubusercontent.com/huseinzol05/2e26de4f3b29d99e993b349864ab6c10/raw/9b2251f3ff958770215d70c8d82d311f82791b78/unzip.py python3 unzip.py

搜集汇总

数据集介绍

构建方式

该数据集通过先进的语音识别技术构建而成，其核心是利用whisper-large-v3模型对马来西亚方言YouTube视频进行伪标注处理。原始数据来源于malaysia-ai/malaysian-dialects-youtube数据集，经过自动化语音转文本流程的深度处理，最终形成包含836万条样本的大规模语料库。数据预处理环节采用分布式下载和自动化解压技术，确保数据获取的高效性和完整性。

使用方法

研究人员可通过HuggingFace提供的专用命令行工具高效下载数据集，支持多线程加速和大文件分片处理。数据集采用标准化压缩格式存储，配套提供自动化解压脚本。使用前需配置Python环境并安装必要依赖，解压后的数据可直接用于语音识别模型的训练与评估，特别适合作为whisper系列模型的微调基准。

背景与挑战

背景概述

pseudolabel-dialects-youtube-whisper-large-v3数据集由malaysia-ai团队构建，旨在通过先进的语音识别技术whisper-large-v3对马来西亚方言YouTube视频进行伪标注。该数据集的创建标志着方言语音识别领域的重要进展，特别是在资源稀缺的低资源语言处理方面。数据集的核心研究问题聚焦于如何利用大规模预训练模型提升方言语音识别的准确性和鲁棒性，为语言学研究和多语言语音技术开发提供了宝贵资源。

当前挑战

该数据集面临的主要挑战包括方言语音识别的固有复杂性，如语音变异性和背景噪声干扰。构建过程中，数据收集与标注的难度尤为突出，特别是在确保方言多样性和语音质量的同时，保持数据规模的有效扩展。此外，伪标注技术的可靠性直接影响了数据集的最终质量，如何在无监督或弱监督条件下优化标注准确性成为关键问题。

常用场景

经典使用场景

在方言语音识别领域，pseudolabel-dialects-youtube-whisper-large-v3数据集通过大规模伪标注技术，为低资源方言的语音转文本任务提供了关键训练素材。该数据集特别适用于探索多方言混合环境下的端到端语音识别模型训练，研究者可利用其覆盖马来西亚多种方言的语音片段，验证跨方言迁移学习的有效性。

解决学术问题

该数据集有效缓解了方言语音识别研究中标注数据稀缺的核心难题，其采用Whisper-large-v3生成的伪标签虽存在一定噪声，但为无监督/半监督学习范式提供了重要实验基础。相关研究证实，基于该数据集的预训练能显著提升模型在Jawi、Kelantanese等小众方言上的识别准确率，对保护语言多样性具有学术价值。

实际应用

在实际应用中，该数据集支撑了马来西亚本土智能语音助手的方言适配工作，当地科技公司利用其训练的多方言识别模块，显著提升了客服系统对非标准马来语的理解能力。教育领域则借助该数据集开发了方言发音评估工具，帮助新移民学习当地方言发音。

数据集最近研究