HowMannyMore/urdu-audiodataset
收藏数据集卡片 for AudioDataset-15
数据集描述
数据集摘要
该数据集是一个乌尔都语的音频数据集,来源于Mozilla的Common Voice项目,这是一个公开的语音数据集,依赖于来自世界各地志愿者的贡献。该数据集的主要目的是支持语音应用程序的开发,为训练机器学习模型提供宝贵的资源。
该数据集的目的是促进乌尔都语的语音转文本转换。通过使用此数据集,研究人员、开发人员以及对语音技术感兴趣的任何人都可以训练能够准确将乌尔都语口语转换为书面文本的模型。这可以在语音识别、转录服务、语言学习工具等多个领域有重要应用。
语言
该数据集包含乌尔都语的音频录音。乌尔都语主要在巴基斯坦和印度部分地区使用。它是印度22种官方认可的语言之一,也被世界各地的巴基斯坦侨民广泛使用。
该数据集主要关注乌尔都语口语,涵盖广泛的主题和类型。需要注意的是,数据集的内容可能会有所不同,包括对话、演讲、采访、叙述和其他形式的乌尔都语口头交流。
数据集结构
数据实例
json { "client_id": "0c9690e5a2d1bb3ce418954a2b70acae53153708f6c3a21c9e8fe7e3912d97ba805ace5091772c8d4e16dc07fc906ca4956335b87821c244eee8129a15fcb0cf", "file_name": "data/test/common_voice_ur_26641307.mp3", "transcription": "تو ان کے حلاج مدلوں کا کیا حال ہے؟", "up_votes": 2, "down_votes": 0, "age": "twenties", "gender": "female", "accent": "", "locale": "ur", "segment": "" }
数据字段
client_id: 提供录音的客户端或贡献者的唯一标识符。(数据类型:字符串)file_name: 音频文件的文件名或路径。(数据类型:字符串)transcription: 乌尔都语口语内容的转录。(数据类型:字符串)up_votes: 录音收到的赞数。(数据类型:整数)down_votes: 录音收到的踩数。(数据类型:整数)age: 说话者的年龄组。(数据类型:字符串)gender: 说话者的性别。(数据类型:字符串)accent: 说话者的口音,如果适用。(数据类型:字符串)locale: 地区或语言代码,这里是乌尔都语的“ur”。(数据类型:字符串)segment: 如果有,额外的段信息。(数据类型:字符串)
数据分割
数据集分为三个部分:训练集、测试集和验证集。训练集用于训练模型,验证集用于在训练期间调整超参数和评估模型性能,测试集用于在训练后评估最终模型的性能。
| 训练集 | 验证集 | 测试集 | |
|---|---|---|---|
| 数量 | 5324 | 42418 | 4031 |




