speechbrain/common_language

Name: speechbrain/common_language
Creator: speechbrain
Published: 2023-06-12 13:29:01
License: 暂无描述

Hugging Face2023-06-12 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/speechbrain/common_language

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由从CommonVoice数据库中精心挑选的语言的语音录音组成。音频录音的总时长为45.1小时（即每种语言1小时的素材）。该数据集已从CommonVoice中提取，用于训练语言识别系统。数据集包含多种语言的录音，如阿拉伯语、巴斯克语、布列塔尼语、加泰罗尼亚语、中文（中国大陆、香港、台湾）、楚瓦什语、捷克语、迪维希语、荷兰语、英语、世界语、爱沙尼亚语、法语、弗里斯兰语、格鲁吉亚语、德语、希腊语、哈卡钦语、印度尼西亚语、国际语、意大利语、日语、卡拜尔语、基尼亚卢旺达语、吉尔吉斯语、拉脱维亚语、马耳他语、蒙古语、波斯语、波兰语、葡萄牙语、罗马尼亚语、罗曼什语、俄语、萨哈语、斯洛文尼亚语、西班牙语、瑞典语、泰米尔语、鞑靼语、土耳其语、乌克兰语和威尔士语。

提供机构：

speechbrain

原始信息汇总

数据集概述

数据集名称

名称: Common Language

数据集来源

来源: 扩展自Common Voice数据集

数据集内容

语言: 包含44种语言，如阿拉伯语、巴斯克语、布列塔尼语、加泰罗尼亚语、中国普通话、中国香港粤语、中国台湾闽南语、楚瓦什语、捷克语、迪维希语、荷兰语、英语、世界语、爱沙尼亚语、法语、弗里斯兰语、格鲁吉亚语、德语、希腊语、哈卡钦语、印度尼西亚语、国际语、意大利语、日语、卡拜尔语、基尼亚卢旺达语、吉尔吉斯语、拉脱维亚语、马耳他语、蒙古语、波斯语、波兰语、葡萄牙语、罗马尼亚语、苏尔西尔瓦尼罗曼什语、俄语、萨哈语、斯洛文尼亚语、西班牙语、瑞典语、泰米尔语、塔塔尔语、土耳其语、乌克兰语、威尔士语。

数据集特性

特性:
- client_id: 字符串类型，标识录音的客户端（声音）。
- path: 字符串类型，音频文件的路径。
- sentence: 字符串类型，用户被提示朗读的句子。
- age: 字符串类型，说话者的年龄。
- gender: 字符串类型，说话者的性别。
- language: 类别标签类型，录音的语言。

数据集结构

数据分割:
- 训练集: 22194个样本，7116761字节。
- 验证集: 5888个样本，1855233字节。
- 测试集: 5963个样本，1877970字节。

数据集大小

大小: 100K<n<1M

许可证

许可证: CC-BY-4.0

多语言性

多语言: 是

任务类别

任务: 音频分类
任务ID: 说话人识别

数据集创建

注释创建者: 众包
语言创建者: 众包

搜集汇总

数据集介绍

构建方式

在语音识别与语言辨识研究领域，构建高质量的多语言数据集是推动技术发展的基石。Common Language数据集源自Common Voice语料库，通过精心筛选涵盖45种语言的语音片段，每种语言均提取约1小时的音频材料，总计45.1小时。数据集的构建过程依赖于众包方式，由全球志愿者贡献语音录音与标注，确保了数据的多样性与真实性。原始音频经过标准化处理，划分为训练集、验证集与测试集，每部分均保持语言平衡，为语言辨识任务提供了结构化的基准资源。

特点

该数据集在语音技术研究中展现出鲜明的多语言特性，覆盖了从阿拉伯语到威尔士语等45种语言，包括多种方言与低资源语种，如弗里西语和楚瓦什语。每个数据样本均包含音频路径、对应文本句子、说话者年龄与性别等元信息，语言标签采用分类编码，便于模型训练。数据规模适中，包含约22,194个训练样本与11,871个验证测试样本，音频时长分布均匀，最小片段超过0.86秒，最大不超过105.67秒，平均时长约4.6秒，为语言辨识系统提供了丰富而均衡的声学特征。

使用方法

在语音处理应用中，该数据集主要用于训练与评估语言辨识模型。研究者可通过HuggingFace平台直接加载数据集，利用其预划分的训练、验证与测试集进行模型开发。音频数据以48kHz采样率存储，支持自动解码与重采样，用户可通过索引访问音频阵列或文件路径。基于SpeechBrain工具包提供的基线方案，开发者能够快速构建语言分类系统，同时需遵循CC-BY 4.0许可协议，并承诺不尝试识别说话者身份，以符合数据伦理要求。

背景与挑战

背景概述

在语音技术领域，多语言语音识别与语言辨识是推动全球化人机交互的关键研究方向。Common Language数据集由SpeechBrain团队于2021年构建，其核心研究问题在于解决多语言环境下的语言辨识任务。该数据集从Common Voice语料库中精心筛选了45种语言的语音数据，每种语言提供约1小时的录音，总计45.1小时，涵盖了从阿拉伯语到威尔士语的广泛语言谱系。通过众包方式收集与标注，该数据集为语言辨识系统的训练与评估提供了标准化基准，显著促进了多语言语音处理模型的公平比较与技术发展。

当前挑战

Common Language数据集面临的挑战主要体现在两个方面。在领域问题层面，语言辨识任务需应对语音信号中的声学变异，如不同说话人的口音、语速及录音环境噪声，这些因素增加了模型区分相似语言或方言的难度。构建过程中，数据平衡与质量控制构成主要挑战，需确保45种语言在数据量、说话人多样性及录音质量上保持均衡，同时处理众包标注带来的不一致性，以及某些语言样本稀缺导致的代表性不足问题。

常用场景

经典使用场景

在语音识别与语言技术领域，多语言语音数据的处理一直是核心挑战之一。Common Language数据集精心选取了45种语言的语音录音，每种语言提供约1小时的平衡语料，为语言识别系统的训练与评估提供了标准化基准。该数据集常被用于构建和测试端到端的语言分类模型，研究人员利用其均衡的语料分布，能够有效训练模型从语音信号中准确辨识不同语言，尤其在处理低资源语言时展现出独特价值。

解决学术问题

该数据集主要解决了多语言语音处理中的语言辨识难题，为学术界提供了统一的评估框架。传统语言识别研究常受限于语料不均衡或语言覆盖不足，Common Language通过涵盖从广泛使用的英语、中文到较少研究的弗里西语、楚瓦什语等45种语言，促进了跨语言语音表征学习的研究。它使得学者能够系统探究语音特征在不同语系间的泛化能力，推动了多语言语音技术的基础理论发展。

衍生相关工作

围绕Common Language数据集，已衍生出一系列经典研究工作。SpeechBrain工具包中提供了基于该数据集的官方基线模型，为后续研究树立了性能标杆。许多学者在此基础上探索了更高效的语言特征提取架构，如融合自监督学习的语音表示方法。部分工作专注于利用该数据集的平衡特性，研究数据稀缺语言的识别提升策略。这些研究不仅优化了语言识别的准确率，也推动了多语言语音处理技术的开源生态发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集