anton-l/common_language

Name: anton-l/common_language
Creator: anton-l
Published: 2022-10-21 16:20:41
License: 暂无描述

Hugging Face2022-10-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/anton-l/common_language

下载链接

链接失效反馈

官方服务：

资源简介：

Common Language数据集是从CommonVoice数据库中精心挑选的语音录音组成，总时长为45.1小时，每种语言包含1小时的录音材料。数据集用于训练语言识别系统。数据集包含多种语言，如阿拉伯语、巴斯克语、布列塔尼语、加泰罗尼亚语、中文（中国大陆、香港、台湾）、楚瓦什语、捷克语、迪维希语、荷兰语、英语、世界语、爱沙尼亚语、法语、弗里斯兰语、格鲁吉亚语、德语、希腊语、哈卡钦语、印度尼西亚语、国际语、意大利语、日语、卡拜尔语、基尼亚卢旺达语、吉尔吉斯语、拉脱维亚语、马耳他语、蒙古语、波斯语、波兰语、葡萄牙语、罗马尼亚语、罗曼什语、俄语、萨哈语、斯洛文尼亚语、西班牙语、瑞典语、泰米尔语、鞑靼语、土耳其语、乌克兰语和威尔士语。数据集已经平衡并分为训练集、开发集（验证集）和测试集。每个数据点包括音频文件的路径和其语言标签，以及年龄、客户端ID、性别和句子等附加字段。数据集由在线捐赠语音的人组成，用户同意不尝试确定Common Voice数据集中说话者的身份。

The Common Language Dataset is curated from the CommonVoice database, comprising speech recordings with a total duration of 45.1 hours, with 1 hour of material per language. It is used for training language recognition systems. The dataset includes a diverse range of languages, such as Arabic, Basque, Breton, Catalan, Chinese (Mainland China, Hong Kong, Taiwan), Chuvash, Czech, Divehi, Dutch, English, Esperanto, Estonian, French, Frisian, Georgian, German, Greek, Hakha Chin, Indonesian, Interlingua, Italian, Japanese, Kabyle, Kinyarwanda, Kyrgyz, Latvian, Maltese, Mongolian, Persian, Polish, Portuguese, Romanian, Romansh, Russian, Sakha, Slovenian, Spanish, Swedish, Tamil, Tatar, Turkish, Ukrainian, and Welsh. The dataset is balanced and split into training, development (validation), and test sets. Each data point includes the path to the audio file and its language label, along with additional fields such as age, client ID, gender, and the transcribed sentence. The dataset consists of online volunteers who donated their speech, and users agree not to attempt to identify the speakers in the Common Voice dataset.

提供机构：

anton-l

原始信息汇总

数据集概述

数据集名称

名称: Common Language

数据集创建

标注创建者: 众包
语言创建者: 众包

语言多样性

支持语言: 包含37种语言，如阿拉伯语、巴斯克语、布列塔尼语、加泰罗尼亚语、中文（中国大陆、香港、台湾）、楚瓦什语、捷克语、迪维希语、荷兰语、英语、世界语、爱沙尼亚语、法语、弗里斯兰语、格鲁吉亚语、德语、希腊语、哈卡钦语、印度尼西亚语、国际语、意大利语、日语、卡拜尔语、基尼亚卢旺达语、吉尔吉斯语、拉脱维亚语、马耳他语、蒙古语、波斯语、波兰语、葡萄牙语、罗马尼亚语、罗曼什语、俄语、萨哈语、斯洛文尼亚语、西班牙语、瑞典语、泰米尔语、塔塔尔语、土耳其语、乌克兰语、威尔士语。

数据集规模

规模: 数据集大小介于10万至100万之间。

数据集来源

来源: 扩展自Common Voice数据库。

任务类别

任务类别: 语音处理
任务ID: 语音分类

数据集结构

数据实例: 每个数据点包含音频文件路径和语言标签，以及其他字段如年龄、客户端ID、性别和句子。
数据字段: 包括客户端ID、路径、语言、句子、年龄和性别。
数据分割: 已平衡并分为训练、验证和测试集。

数据集创建注意事项

个人信息和敏感信息: 数据集包含在线捐赠声音的人，用户同意不尝试确定Common Voice数据集中说话者的身份。
已知限制: 蒙古语和乌克兰语在本版本数据集中被拼写为"Mangolian"和"Ukranian"。

许可证

许可证: cc-by-nc-4.0

引用信息

@dataset{ganesh_sinisetty_2021_5036977, author = {Ganesh Sinisetty and Pavlo Ruban and Oleksandr Dymov and Mirco Ravanelli}, title = {CommonLanguage}, month = jun, year = 2021, publisher = {Zenodo}, version = {0.1}, doi = {10.5281/zenodo.5036977}, url = {https://doi.org/10.5281/zenodo.5036977} }

搜集汇总

数据集介绍

构建方式

在语音识别与语言技术蓬勃发展的背景下，Common Language数据集应运而生，旨在为语言识别系统提供高质量的训练资源。该数据集从广泛使用的Common Voice语音数据库中精心筛选而来，涵盖了包括阿拉伯语、巴斯克语、加泰罗尼亚语、中文、英语等在内的46种语言。其构建过程体现了严谨的平衡性设计，每种语言均包含约1小时的语音材料，总计45.1小时的音频时长。数据已预先划分为训练集、验证集和测试集，确保了各语言在数据量上的均衡分布，为多语言模型的公平比较奠定了坚实基础。

特点

Common Language数据集以其卓越的多语言覆盖和精心的结构设计而著称。它囊括了从广泛使用的国际语言到如楚瓦什语、迪维希语等资源相对稀缺的语种，展现了出色的语言多样性。数据集结构清晰，每条数据实例均包含音频文件路径、对应的语言标签、原始文本句子以及说话者的年龄和性别等元信息。尤为突出的是，其数据划分已实现平衡，训练集、验证集和测试集在语言分布和时长上均经过精心配置，平均音频时长约4.7秒，最大时长超过100秒，为模型训练与评估提供了可靠且全面的基准。

使用方法

该数据集主要服务于语言识别任务的模型训练与评估。使用者可通过提供的音频路径加载波形数据，并利用对应的语言标签进行监督学习。数据集已集成至Hugging Face平台，支持通过`datasets`库便捷加载。典型的应用流程包括：使用训练集训练语言分类模型，在验证集上进行超参数调优与早期停止，最终在测试集上评估模型的泛化性能。SpeechBrain工具包中提供了基于该数据集的基线模型与训练配方，为研究者快速复现和推进工作提供了便利。在使用过程中，需遵循CC-BY-NC-4.0许可协议，并严格遵守不尝试识别说话者身份的数据使用伦理。

背景与挑战

背景概述

在语音识别与语言技术蓬勃发展的时代，多语言语音数据的匮乏成为制约语言识别系统性能提升的关键瓶颈。CommonLanguage数据集应运而生，由Ganesh Sinisetty、Pavlo Ruban、Oleksandr Dymov和Mirco Ravanelli等研究人员于2021年构建并发布，其核心研究目标在于为语言识别任务提供一个均衡且覆盖广泛语言种类的标准化语音语料库。该数据集精心选自Mozilla CommonVoice项目，涵盖了包括阿拉伯语、巴斯克语、加泰罗尼亚语、中文、日语等在内的45种语言，每种语言均提供约1小时的语音材料，总计45.1小时。它的出现显著推动了多语言语音处理领域的研究，为开发鲁棒性更强的语言识别模型奠定了坚实基础。

当前挑战

CommonLanguage数据集致力于解决语言识别领域的核心挑战，即如何在单一模型中准确区分数十种在音素、韵律和声学特征上差异显著的语言。这要求模型具备强大的跨语言表征学习与泛化能力。在构建过程中，挑战同样突出：首先，从庞大的CommonVoice原始库中筛选并平衡45种语言的语音数据，确保每种语言在时长、说话人多样性和录音质量上达到一致标准，是一项复杂的工程；其次，处理诸如蒙古语和乌克兰语等语言名称的拼写错误，以及整合来自全球众包贡献者、在年龄、性别和口音上分布不均的语音样本，都对数据清洗与标准化流程提出了极高要求。

常用场景

经典使用场景

在语音识别与语言技术领域，多语言语音数据的稀缺性长期制约着语言识别系统的研发。Common Language数据集精心整合了45种语言的语音录音，每种语言提供约一小时的均衡语料，为语言识别任务构建了标准化的评估基准。该数据集通过从Common Voice数据库中筛选并平衡语料，使得研究人员能够直接利用其预划分的训练、验证与测试集，高效训练和验证语言识别模型，尤其在跨语言语音特征提取与分类任务中展现出核心价值。

解决学术问题

该数据集主要应对语言识别研究中数据不平衡与覆盖范围有限的学术挑战。传统语音数据集往往集中于少数主流语言，难以支撑对低资源语言或方言的识别研究。Common Language通过涵盖阿拉伯语、巴斯克语、威尔士语等45种多样化的语言，包括多种低资源语种，为探索语言声学特征的普遍性与差异性提供了实证基础。其均衡的语料设计有助于减少模型偏差，推动多语言语音处理领域向更公平、更全面的方向发展，对语言技术研究的包容性提升具有深远意义。

衍生相关工作

围绕Common Language数据集，已衍生出一系列经典研究工作，特别是在语言识别模型的创新与优化方面。SpeechBrain工具包中集成了基于该数据集的基准实验方案，为社区提供了可复现的模型训练流程。后续研究常以此数据集为基准，探索深度神经网络、注意力机制及自监督学习在语言识别任务上的性能，推动了如XLSR等跨语言语音表示学习模型的评估与改进。这些工作不仅验证了数据集的实用性，也进一步丰富了多语言语音处理的技术图谱。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集