speechbrain/common_language
收藏Hugging Face2023-06-12 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/speechbrain/common_language
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由从CommonVoice数据库中精心挑选的语言的语音录音组成。音频录音的总时长为45.1小时(即每种语言1小时的素材)。该数据集已从CommonVoice中提取,用于训练语言识别系统。数据集包含多种语言的录音,如阿拉伯语、巴斯克语、布列塔尼语、加泰罗尼亚语、中文(中国大陆、香港、台湾)、楚瓦什语、捷克语、迪维希语、荷兰语、英语、世界语、爱沙尼亚语、法语、弗里斯兰语、格鲁吉亚语、德语、希腊语、哈卡钦语、印度尼西亚语、国际语、意大利语、日语、卡拜尔语、基尼亚卢旺达语、吉尔吉斯语、拉脱维亚语、马耳他语、蒙古语、波斯语、波兰语、葡萄牙语、罗马尼亚语、罗曼什语、俄语、萨哈语、斯洛文尼亚语、西班牙语、瑞典语、泰米尔语、鞑靼语、土耳其语、乌克兰语和威尔士语。
该数据集由从CommonVoice数据库中精心挑选的语言的语音录音组成。音频录音的总时长为45.1小时(即每种语言1小时的素材)。该数据集已从CommonVoice中提取,用于训练语言识别系统。数据集包含多种语言的录音,如阿拉伯语、巴斯克语、布列塔尼语、加泰罗尼亚语、中文(中国大陆、香港、台湾)、楚瓦什语、捷克语、迪维希语、荷兰语、英语、世界语、爱沙尼亚语、法语、弗里斯兰语、格鲁吉亚语、德语、希腊语、哈卡钦语、印度尼西亚语、国际语、意大利语、日语、卡拜尔语、基尼亚卢旺达语、吉尔吉斯语、拉脱维亚语、马耳他语、蒙古语、波斯语、波兰语、葡萄牙语、罗马尼亚语、罗曼什语、俄语、萨哈语、斯洛文尼亚语、西班牙语、瑞典语、泰米尔语、鞑靼语、土耳其语、乌克兰语和威尔士语。
提供机构:
speechbrain
原始信息汇总
数据集概述
数据集名称
- 名称: Common Language
数据集来源
- 来源: 扩展自Common Voice数据集
数据集内容
- 语言: 包含44种语言,如阿拉伯语、巴斯克语、布列塔尼语、加泰罗尼亚语、中国普通话、中国香港粤语、中国台湾闽南语、楚瓦什语、捷克语、迪维希语、荷兰语、英语、世界语、爱沙尼亚语、法语、弗里斯兰语、格鲁吉亚语、德语、希腊语、哈卡钦语、印度尼西亚语、国际语、意大利语、日语、卡拜尔语、基尼亚卢旺达语、吉尔吉斯语、拉脱维亚语、马耳他语、蒙古语、波斯语、波兰语、葡萄牙语、罗马尼亚语、苏尔西尔瓦尼罗曼什语、俄语、萨哈语、斯洛文尼亚语、西班牙语、瑞典语、泰米尔语、塔塔尔语、土耳其语、乌克兰语、威尔士语。
数据集特性
- 特性:
client_id: 字符串类型,标识录音的客户端(声音)。path: 字符串类型,音频文件的路径。sentence: 字符串类型,用户被提示朗读的句子。age: 字符串类型,说话者的年龄。gender: 字符串类型,说话者的性别。language: 类别标签类型,录音的语言。
数据集结构
- 数据分割:
- 训练集: 22194个样本,7116761字节。
- 验证集: 5888个样本,1855233字节。
- 测试集: 5963个样本,1877970字节。
数据集大小
- 大小: 100K<n<1M
许可证
- 许可证: CC-BY-4.0
多语言性
- 多语言: 是
任务类别
- 任务: 音频分类
- 任务ID: 说话人识别
数据集创建
- 注释创建者: 众包
- 语言创建者: 众包
搜集汇总
数据集介绍

构建方式
在语音识别与语言辨识研究领域,构建高质量的多语言数据集是推动技术发展的基石。Common Language数据集源自Common Voice语料库,通过精心筛选涵盖45种语言的语音片段,每种语言均提取约1小时的音频材料,总计45.1小时。数据集的构建过程依赖于众包方式,由全球志愿者贡献语音录音与标注,确保了数据的多样性与真实性。原始音频经过标准化处理,划分为训练集、验证集与测试集,每部分均保持语言平衡,为语言辨识任务提供了结构化的基准资源。
特点
该数据集在语音技术研究中展现出鲜明的多语言特性,覆盖了从阿拉伯语到威尔士语等45种语言,包括多种方言与低资源语种,如弗里西语和楚瓦什语。每个数据样本均包含音频路径、对应文本句子、说话者年龄与性别等元信息,语言标签采用分类编码,便于模型训练。数据规模适中,包含约22,194个训练样本与11,871个验证测试样本,音频时长分布均匀,最小片段超过0.86秒,最大不超过105.67秒,平均时长约4.6秒,为语言辨识系统提供了丰富而均衡的声学特征。
使用方法
在语音处理应用中,该数据集主要用于训练与评估语言辨识模型。研究者可通过HuggingFace平台直接加载数据集,利用其预划分的训练、验证与测试集进行模型开发。音频数据以48kHz采样率存储,支持自动解码与重采样,用户可通过索引访问音频阵列或文件路径。基于SpeechBrain工具包提供的基线方案,开发者能够快速构建语言分类系统,同时需遵循CC-BY 4.0许可协议,并承诺不尝试识别说话者身份,以符合数据伦理要求。
背景与挑战
背景概述
在语音技术领域,多语言语音识别与语言辨识是推动全球化人机交互的关键研究方向。Common Language数据集由SpeechBrain团队于2021年构建,其核心研究问题在于解决多语言环境下的语言辨识任务。该数据集从Common Voice语料库中精心筛选了45种语言的语音数据,每种语言提供约1小时的录音,总计45.1小时,涵盖了从阿拉伯语到威尔士语的广泛语言谱系。通过众包方式收集与标注,该数据集为语言辨识系统的训练与评估提供了标准化基准,显著促进了多语言语音处理模型的公平比较与技术发展。
当前挑战
Common Language数据集面临的挑战主要体现在两个方面。在领域问题层面,语言辨识任务需应对语音信号中的声学变异,如不同说话人的口音、语速及录音环境噪声,这些因素增加了模型区分相似语言或方言的难度。构建过程中,数据平衡与质量控制构成主要挑战,需确保45种语言在数据量、说话人多样性及录音质量上保持均衡,同时处理众包标注带来的不一致性,以及某些语言样本稀缺导致的代表性不足问题。
常用场景
经典使用场景
在语音识别与语言技术领域,多语言语音数据的处理一直是核心挑战之一。Common Language数据集精心选取了45种语言的语音录音,每种语言提供约1小时的平衡语料,为语言识别系统的训练与评估提供了标准化基准。该数据集常被用于构建和测试端到端的语言分类模型,研究人员利用其均衡的语料分布,能够有效训练模型从语音信号中准确辨识不同语言,尤其在处理低资源语言时展现出独特价值。
解决学术问题
该数据集主要解决了多语言语音处理中的语言辨识难题,为学术界提供了统一的评估框架。传统语言识别研究常受限于语料不均衡或语言覆盖不足,Common Language通过涵盖从广泛使用的英语、中文到较少研究的弗里西语、楚瓦什语等45种语言,促进了跨语言语音表征学习的研究。它使得学者能够系统探究语音特征在不同语系间的泛化能力,推动了多语言语音技术的基础理论发展。
衍生相关工作
围绕Common Language数据集,已衍生出一系列经典研究工作。SpeechBrain工具包中提供了基于该数据集的官方基线模型,为后续研究树立了性能标杆。许多学者在此基础上探索了更高效的语言特征提取架构,如融合自监督学习的语音表示方法。部分工作专注于利用该数据集的平衡特性,研究数据稀缺语言的识别提升策略。这些研究不仅优化了语言识别的准确率,也推动了多语言语音处理技术的开源生态发展。
以上内容由遇见数据集搜集并总结生成



