projecte-aina/commonvoice_benchmark_catalan_accents

Name: projecte-aina/commonvoice_benchmark_catalan_accents
Creator: projecte-aina
Published: 2025-02-14 22:20:47
License: 暂无描述

Hugging Face2025-02-14 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/commonvoice_benchmark_catalan_accents

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于加泰罗尼亚语的语音识别和音频分类任务，旨在为加泰罗尼亚语的不同口音（如巴利阿里、中部、北部、西北部、瓦伦西亚）和性别（男性和女性）提供基准测试。数据集来源于Common Voice项目的加泰罗尼亚语版本，并经过专家团队的注释和重新划分，以创建适合自动语音识别（ASR）模型的基准数据集。数据集包含约2700小时的训练数据和每个口音和性别组合的2.5小时测试数据。

提供机构：

projecte-aina

原始信息汇总

Common Voice Benchmark Catalan Accents 数据集概述

数据集描述

数据集摘要

该数据集是对 Catalan Common Voice v17 - metadata annotated version 语料库的新呈现，重新定义了分割以评估具有不同加泰罗尼亚口音的ASR模型。从验证的录音分割中，我们为语言的主要口音（巴利阿里、中央、北部、西北部、瓦伦西亚）选择了必要的男性和女性说话者，以收集大约两个半小时的多样化语音录音。因此，我们创建了十个基准分割，这些分割是由考虑的5个口音和2个性别（女性和男性）的组合产生的。

未包含在这些分割中的说话者的录音已被分组到训练分割中。

支持的任务和排行榜

自动语音识别（Automatic Speech Recognition）。

语言

该数据集是加泰罗尼亚语（ca）。

数据集结构

数据实例

json { "client_id": "69dafb41ddc0ea2785719305fdc5c8d79c4b2829d9f3325bda707dcaa553f95c5fbf4b072970d9004d3e31543fcb2c55e252dc904c4fb5aee2a5e5500df90967", "path": "common_voice_ca_19909748.mp3", "sentence": "En el carrer de lesglésia es troben bona part dels edificis importants de la vila.", "up_votes": 2, "down_votes": 0, "age": "thirties", "gender": "male_masculine", "accent": "balear", "variant": "", "locale": "ca", "segment": "", "mean quality": "4.0", "stdev quality": "0.0", "annotated_accent": "balearic", "annotated_accent_agreement": "100.0", "annotated_gender": "male", "annotated_gender_agreement": "100.0", "propagated_gender": "male_masculine", "propagated_accents": "balear", "propagated_accents_normalized": "balearic", "assigned_accent": "balearic", "assigned_gender": "male_masculine" }

数据字段

数据字段保留自 Catalan Common Voice v17 - metadata annotated version。

详细解释请参考该数据集的 README 文件。

主要数据字段包括：

client_id(string): 录音的客户端ID
path(string): 音频文件的路径
sentence_id(string): 文本句子的ID
sentence(string): 用户被提示说的句子
sentence_domain(string): 句子的语义域
up_votes(int64): 音频文件获得的赞数
down_votes(int64): 音频文件获得的踩数
age(string): 说话者的自我报告年龄
gender(string): 说话者的自我报告性别
accent(string): 说话者的自我报告口音
locale(string): 说话者的地区
segment(string): 通常为空字段

在标注版本中，添加了以下字段：

annotated_gender(string): 专家团队标注的性别
annotated_gender_agreement(float): 标注团队对说话者性别的共识
annotated_accent(string): 专家团队标注的口音
annotated_accent_agreement(float): 标注团队对说话者口音的共识
mean quality(float): 说话者录音的平均标注质量
stdev quality(float): 标注者之间质量标注的偏差
propagated_gender(string): 用户在某些录音中自我声明的性别
propagated_accents(string): 用户在某些录音中自我声明的口音
propagated_accents_normalized(string): 传播的口音，标准化为直到版本7使用的封闭选项列表
assigned_accent(string): 分配给说话者的口音
assigned_gender(string): 分配给说话者的性别

数据分割

分割已重新调整，以获得每个考虑的5个口音和2个性别组合的两个半小时的录音。

分割	句子数	说话者数	时长（毫秒）	时长（小时）
balearic_female.tsv	1665	131	9066912	2.52
balearic_male.tsv	1616	112	9129120	2.54
central_female.tsv	1742	301	9028276	2.51
central_male.tsv	1701	342	9011986	2.50
northern_female.tsv	1627	55	9402612	2.61
northern_male.tsv	1615	68	9249720	2.57
northwestern_female.tsv	1618	120	9136129	2.54
northwestern_male.tsv	1626	133	9055302	2.51
train.tsv	1801369	32894	9730691599	2702.97
valencian_female.tsv	1744	119	9107568	2.53
valencian_male.tsv	1631	151	9003500	2.50

数据集创建

策划理由

鉴于缺乏多样口音的数据来评估加泰罗尼亚ASR模型，我们重新调整了 Catalan Common Voice v17 - metadata annotated version 的数据，以创建一个基准数据集。

我们希望这个语料库能为加泰罗尼亚语说话者，一种少数语言，在其所有口音中提供语音技术的访问。

源数据

初始数据收集和规范化

原始数据来自 Catalan Common Voice v17 - metadata annotated version。

详细解释请参考该数据集的 README 文件。

源语言生产者

Common Voice项目是Mozilla基金会的一项倡议，旨在收集各种语言和口音的声音。这些声音由志愿者提供。

更多信息请访问项目网站。

标注

标注过程

为了创建这个基准，我们使用了 Catalan Common Voice v17 - metadata annotated version 的标注。

详细信息请参见该数据集的 README 文件。

标注者

数据集 Catalan Common Voice v17 - metadata annotated version 包含 Common Voice项目的自有标注和巴塞罗那大学（UB）专家团队的一些标注。详细信息请参见该数据集的 README 文件。

个人和敏感信息

该数据集由在线捐赠其声音的人组成。您同意不尝试确定Common Voice数据集中说话者的身份。

使用数据的注意事项

数据集的社会影响

该数据集由在线捐赠其声音的人组成。您同意不尝试确定Common Voice数据集中说话者的身份。

我们希望这个语料库能为加泰罗尼亚语说话者，一种少数语言，在其所有口音中提供语音技术的访问。

偏见的讨论

Common Voice中大多数加泰罗尼亚语的声音对应于40至60岁之间的男性，具有中央口音。我们重新调整了Common Voice中的数据，以创建一个考虑最常见性别（女性和男性）和口音（巴利阿里、中央、北部、西北部、瓦伦西亚）的ASR基准数据集。

由于缺乏数据，基准目前不评估其他性别和口音。我们希望将来能扩展它。

关于录音句子的内容，我们认为Common Voice的验证系统在移除可能产生有毒内容的句子方面是有效的。

其他已知限制

[N/A]

附加信息

数据集策展人

巴塞罗那超级计算中心（BSC）的语言技术单元（langtech@bsc.es）

这项工作由数字和公共职能部资助，由欧盟资助的项目ILENIA 在参考号2022/TL22/00215337下进行。

许可信息

该数据集可用于任何目的，无论是学术还是商业，根据 CC BY 4.0 许可条款。提供适当的信用，提供许可证链接，并指示是否进行了更改。

引用信息

DOI []

贡献

Catalan Common Voice v17 - metadata annotated version 的手动标注委托给巴塞罗那大学（UB）的 STeL 团队。

5,000+

优质数据集

54 个

任务类型

进入经典数据集