common_voice_16_1_hi_pseudo_labelled

Name: common_voice_16_1_hi_pseudo_labelled
Creator: Nasjonalbiblioteket AI Lab
Published: 2024-10-17 17:57:12
License: 暂无描述

Hugging Face2024-10-17 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/NbAiLab/common_voice_16_1_hi_pseudo_labelled

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含音频文件及其对应的文本信息。数据集分为三个部分：训练集、验证集和测试集。每个部分都包含音频文件的路径、音频数据、句子文本、是否依赖前一个句子的条件信息以及Whisper模型的转录文本。音频数据的采样率为16000Hz。数据集的总下载大小为1415120777字节，总数据集大小为1511510759.0字节。

This dataset contains audio files and their corresponding text information. It is divided into three subsets: training set, validation set, and test set. Each subset includes the path of the audio file, audio data, sentence text, conditional information indicating whether it depends on the preceding sentence, and the transcribed text from the Whisper model. The sampling rate of the audio data is 16000 Hz. The total download size of the dataset is 1415120777 bytes, and the total dataset size is 1511510759.0 bytes.

提供机构：

Nasjonalbiblioteket AI Lab

创建时间：

2024-10-17

原始信息汇总

数据集概述

基本信息

数据集名称: common_voice_16_1_hi_pseudo_labelled
配置名称: hi

特征信息

路径:
- 名称: path
- 数据类型: string
音频:
- 名称: audio
- 数据类型:
  - 采样率: 16000
句子:
- 名称: sentence
- 数据类型: string
前一条件:
- 名称: condition_on_prev
- 数据类型: int64
Whisper转录:
- 名称: whisper_transcript
- 数据类型: string

数据分割

训练集:
- 名称: train
- 字节数: 641886655.0
- 样本数: 730
验证集:
- 名称: validation
- 字节数: 363420144.0
- 样本数: 414
测试集:
- 名称: test
- 字节数: 506203960.0
- 样本数: 584

数据大小

下载大小: 1415120777
数据集大小: 1511510759.0

配置文件

配置名称: hi
- 数据文件:
  - 训练集路径: hi/train-*
  - 验证集路径: hi/validation-*
  - 测试集路径: hi/test-*

搜集汇总

数据集介绍

构建方式

common_voice_16_1_hi_pseudo_labelled数据集的构建基于Common Voice项目，该项目通过众包方式收集了多种语言的语音数据。该数据集特别针对印地语（hi）进行了伪标签处理，利用Whisper模型对未标注的语音数据进行转录，生成了伪标签。数据集包含训练集、验证集和测试集，分别包含730、414和584个样本，确保了数据的多样性和广泛性。

特点

该数据集的特点在于其高质量的语音数据和伪标签的引入。每个样本包含音频文件路径、音频数据、原始句子、条件序列以及Whisper转录文本。音频数据的采样率为16000Hz，确保了语音的清晰度和可处理性。伪标签的引入为语音识别任务提供了额外的监督信息，有助于提升模型的训练效果。

使用方法

使用common_voice_16_1_hi_pseudo_labelled数据集时，用户可以通过加载训练集、验证集和测试集进行模型训练和评估。数据集中的音频数据和伪标签可直接用于语音识别模型的输入和输出。通过结合原始句子和Whisper转录文本，用户可以进行多任务学习或伪标签的进一步优化。数据集的标准化格式便于与现有的语音处理工具和框架集成，加速研究开发过程。

背景与挑战

背景概述

common_voice_16_1_hi_pseudo_labelled数据集是Mozilla Common Voice项目的一部分，专注于印地语（Hindi）语音数据的收集与标注。该数据集于2023年发布，旨在为语音识别和自然语言处理领域提供高质量的语音数据资源。数据集的核心研究问题在于如何通过伪标签技术提升语音识别的准确性和鲁棒性，特别是在低资源语言环境中。通过引入Whisper转录模型生成的伪标签，该数据集为研究者提供了一个新的视角，以探索半监督学习在语音识别中的应用。其影响力不仅体现在印地语语音识别技术的进步，还为其他低资源语言的语音研究提供了宝贵的参考。

当前挑战

common_voice_16_1_hi_pseudo_labelled数据集在解决印地语语音识别问题时面临多重挑战。首先，印地语作为一种形态丰富的语言，其语音特征和语法结构复杂，增加了语音识别模型的训练难度。其次，伪标签技术的引入虽然提升了数据标注的效率，但也带来了标签噪声问题，可能影响模型的最终性能。在数据集构建过程中，如何确保伪标签的准确性和一致性成为一大挑战，特别是在处理多样化的语音样本时。此外，数据集的规模相对较小，可能限制了模型在更广泛场景下的泛化能力。这些挑战共同构成了该数据集在语音识别领域应用中的关键问题。

常用场景

经典使用场景

在语音识别领域，common_voice_16_1_hi_pseudo_labelled数据集被广泛用于训练和评估自动语音识别（ASR）模型。该数据集包含大量印地语语音样本及其对应的文本转录，为研究者提供了丰富的资源，用于优化语音到文本的转换算法。特别是在多语言语音识别任务中，该数据集帮助研究者探索不同语言之间的语音特征差异，提升模型的跨语言识别能力。

解决学术问题

该数据集有效解决了语音识别研究中数据稀缺和标注成本高的问题。通过提供伪标注的语音数据，研究者能够在缺乏大量人工标注数据的情况下，依然训练出高性能的语音识别模型。这不仅降低了研究门槛，还推动了低资源语言语音识别技术的发展，为全球语言多样性保护提供了技术支持。

衍生相关工作

基于该数据集，研究者开发了多种先进的语音识别模型和算法。例如，一些工作利用该数据集进行多任务学习，结合语音识别和语音合成任务，提升了模型的泛化能力。此外，该数据集还被用于研究语音识别中的噪声鲁棒性和口音适应性，推动了语音识别技术在实际复杂环境中的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集