HowMannyMore/urdu-audiodataset

Name: HowMannyMore/urdu-audiodataset
Creator: HowMannyMore
Published: 2023-10-29 06:30:46
License: 暂无描述

Hugging Face2023-10-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/HowMannyMore/urdu-audiodataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含乌尔都语录音的音频数据集，来源于Mozilla的Common Voice项目。数据集的主要用途是支持语音应用开发，特别是乌尔都语的语音到文本转换。数据集包含多个字段，如音频文件、转录文本、投票数、说话者的年龄、性别、口音等信息。数据集分为训练集、验证集和测试集，分别用于模型训练、超参数调整和最终性能评估。

This is an audio dataset containing Urdu language recordings, sourced from Mozilla's Common Voice project. The primary purpose of this dataset is to support the development of speech applications, particularly speech-to-text conversion for the Urdu language. The dataset includes multiple fields such as audio files, transcriptions, vote counts, speaker's age, gender, accent and other relevant information. The dataset is divided into training, validation and test sets, which are used for model training, hyperparameter tuning and final performance evaluation respectively.

提供机构：

HowMannyMore

原始信息汇总

数据集卡片 for AudioDataset-15

数据集描述

数据集摘要

该数据集是一个乌尔都语的音频数据集，来源于Mozilla的Common Voice项目，这是一个公开的语音数据集，依赖于来自世界各地志愿者的贡献。该数据集的主要目的是支持语音应用程序的开发，为训练机器学习模型提供宝贵的资源。

该数据集的目的是促进乌尔都语的语音转文本转换。通过使用此数据集，研究人员、开发人员以及对语音技术感兴趣的任何人都可以训练能够准确将乌尔都语口语转换为书面文本的模型。这可以在语音识别、转录服务、语言学习工具等多个领域有重要应用。

语言

该数据集包含乌尔都语的音频录音。乌尔都语主要在巴基斯坦和印度部分地区使用。它是印度22种官方认可的语言之一，也被世界各地的巴基斯坦侨民广泛使用。

该数据集主要关注乌尔都语口语，涵盖广泛的主题和类型。需要注意的是，数据集的内容可能会有所不同，包括对话、演讲、采访、叙述和其他形式的乌尔都语口头交流。

数据集结构

数据实例

json { "client_id": "0c9690e5a2d1bb3ce418954a2b70acae53153708f6c3a21c9e8fe7e3912d97ba805ace5091772c8d4e16dc07fc906ca4956335b87821c244eee8129a15fcb0cf", "file_name": "data/test/common_voice_ur_26641307.mp3", "transcription": "تو ان کے حلاج مدلوں کا کیا حال ہے؟", "up_votes": 2, "down_votes": 0, "age": "twenties", "gender": "female", "accent": "", "locale": "ur", "segment": "" }

数据字段

client_id: 提供录音的客户端或贡献者的唯一标识符。（数据类型：字符串）
file_name: 音频文件的文件名或路径。（数据类型：字符串）
transcription: 乌尔都语口语内容的转录。（数据类型：字符串）
up_votes: 录音收到的赞数。（数据类型：整数）
down_votes: 录音收到的踩数。（数据类型：整数）
age: 说话者的年龄组。（数据类型：字符串）
gender: 说话者的性别。（数据类型：字符串）
accent: 说话者的口音，如果适用。（数据类型：字符串）
locale: 地区或语言代码，这里是乌尔都语的“ur”。（数据类型：字符串）
segment: 如果有，额外的段信息。（数据类型：字符串）

数据分割

数据集分为三个部分：训练集、测试集和验证集。训练集用于训练模型，验证集用于在训练期间调整超参数和评估模型性能，测试集用于在训练后评估最终模型的性能。

	训练集	验证集	测试集
数量	5324	42418	4031

搜集汇总

数据集介绍

构建方式

在语音识别技术蓬勃发展的背景下，Urdu音频数据集的构建依托于Mozilla Common Voice这一开源平台。该平台通过全球志愿者贡献的语音样本，系统性地收集了乌尔都语的口语数据。构建过程遵循严谨的众包模式，志愿者录制指定语句，并由社区进行多轮验证与投票，确保转录文本的准确性。数据集最终被划分为训练集、验证集和测试集，为机器学习模型的开发与评估提供了结构化的数据基础。

使用方法

在语音技术应用领域，本数据集主要用于乌尔都语自动语音识别模型的训练与评估。研究人员可加载标准化的数据分割，直接将其输入深度学习框架进行端到端建模。验证集可用于超参数调优与早期停止，而独立的测试集则为模型泛化能力提供最终评测。其丰富的说话者元数据亦支持公平性分析与偏差研究，推动构建更具包容性的语音技术。

背景与挑战

背景概述

在语音技术蓬勃发展的时代背景下，多语言语音识别成为推动全球信息无障碍交流的关键。由HowMannyMore整理的乌尔都语音频数据集，基于Mozilla Common Voice项目构建，旨在为乌尔都语这一南亚重要语言提供高质量的语音-文本配对资源。该数据集汇集了全球志愿者的贡献，核心研究问题聚焦于解决资源稀缺语言在自动语音识别领域的模型训练难题，其创建为乌尔都语的语音技术应用，如智能助手、转录服务及语言学习工具的开发，奠定了重要的数据基础，并对促进语言技术公平性产生了积极影响。

当前挑战

该数据集致力于应对乌尔都语自动语音识别任务中的核心挑战，包括处理语言本身的复杂音韵变体、多样的地域口音以及口语与书面语之间的差异。在构建过程中，挑战主要源于众包数据收集的质量控制，例如确保转录文本的准确性、平衡不同年龄、性别和口音说话者的样本分布，以及从海量原始录音中筛选出高信噪比的音频片段。这些因素共同构成了构建一个鲁棒、公平且具代表性的低资源语言语音数据集的显著障碍。

常用场景

经典使用场景

在语音技术领域，乌尔都语作为南亚地区的重要语言，其语音资源的稀缺性长期制约着相关研究进展。HowMannyMore/urdu-audiodataset的构建，为乌尔都语自动语音识别模型的训练提供了标准化语料基础。该数据集通过提供带精确文本标注的音频片段，使研究者能够构建端到端的声学模型与语言模型，优化乌尔都语连续语音的识别准确率。其经典应用场景聚焦于训练深度神经网络，如卷积神经网络或循环神经网络，以实现从乌尔都语语音流到文字序列的可靠转换。

解决学术问题

该数据集有效应对了低资源语言语音处理中的核心挑战。在学术层面，它为解决乌尔都语语音识别中因方言变体、年龄与性别引起的声学特征差异问题提供了实证数据。通过包含口音、年龄、性别等元信息，数据集支持了语音识别模型鲁棒性与泛化能力的研究，助力探索多说话人自适应、领域迁移等前沿课题。其意义在于填补了乌尔都语语音语料库的空白，为计算语言学与语音技术在该语言上的公平发展奠定了数据基石。

实际应用

在实际应用层面，该数据集推动了乌尔都语语音技术的产品化与普及。基于此训练的语音识别引擎，可集成于智能助理、车载语音系统及客户服务自动化平台，为乌尔都语使用者提供无障碍的人机交互体验。在教育领域，它支持开发语音驱动的语言学习应用与发音评估工具；在公共服务中，则助力构建语音转写系统，用于会议记录、媒体内容字幕生成及司法笔录等场景，显著提升信息获取与传播的效率。

数据集最近研究