projecte-aina/commonvoice_benchmark_catalan_accents
收藏Common Voice Benchmark Catalan Accents 数据集概述
数据集描述
数据集摘要
该数据集是对 Catalan Common Voice v17 - metadata annotated version 语料库的新呈现,重新定义了分割以评估具有不同加泰罗尼亚口音的ASR模型。从验证的录音分割中,我们为语言的主要口音(巴利阿里、中央、北部、西北部、瓦伦西亚)选择了必要的男性和女性说话者,以收集大约两个半小时的多样化语音录音。因此,我们创建了十个基准分割,这些分割是由考虑的5个口音和2个性别(女性和男性)的组合产生的。
未包含在这些分割中的说话者的录音已被分组到训练分割中。
支持的任务和排行榜
自动语音识别(Automatic Speech Recognition)。
语言
该数据集是加泰罗尼亚语(ca)。
数据集结构
数据实例
json { "client_id": "69dafb41ddc0ea2785719305fdc5c8d79c4b2829d9f3325bda707dcaa553f95c5fbf4b072970d9004d3e31543fcb2c55e252dc904c4fb5aee2a5e5500df90967", "path": "common_voice_ca_19909748.mp3", "sentence": "En el carrer de lesglésia es troben bona part dels edificis importants de la vila.", "up_votes": 2, "down_votes": 0, "age": "thirties", "gender": "male_masculine", "accent": "balear", "variant": "", "locale": "ca", "segment": "", "mean quality": "4.0", "stdev quality": "0.0", "annotated_accent": "balearic", "annotated_accent_agreement": "100.0", "annotated_gender": "male", "annotated_gender_agreement": "100.0", "propagated_gender": "male_masculine", "propagated_accents": "balear", "propagated_accents_normalized": "balearic", "assigned_accent": "balearic", "assigned_gender": "male_masculine" }
数据字段
数据字段保留自 Catalan Common Voice v17 - metadata annotated version。
详细解释请参考该数据集的 README 文件。
主要数据字段包括:
client_id(string): 录音的客户端IDpath(string): 音频文件的路径sentence_id(string): 文本句子的IDsentence(string): 用户被提示说的句子sentence_domain(string): 句子的语义域up_votes(int64): 音频文件获得的赞数down_votes(int64): 音频文件获得的踩数age(string): 说话者的自我报告年龄gender(string): 说话者的自我报告性别accent(string): 说话者的自我报告口音locale(string): 说话者的地区segment(string): 通常为空字段
在标注版本中,添加了以下字段:
annotated_gender(string): 专家团队标注的性别annotated_gender_agreement(float): 标注团队对说话者性别的共识annotated_accent(string): 专家团队标注的口音annotated_accent_agreement(float): 标注团队对说话者口音的共识mean quality(float): 说话者录音的平均标注质量stdev quality(float): 标注者之间质量标注的偏差propagated_gender(string): 用户在某些录音中自我声明的性别propagated_accents(string): 用户在某些录音中自我声明的口音propagated_accents_normalized(string): 传播的口音,标准化为直到版本7使用的封闭选项列表assigned_accent(string): 分配给说话者的口音assigned_gender(string): 分配给说话者的性别
数据分割
分割已重新调整,以获得每个考虑的5个口音和2个性别组合的两个半小时的录音。
| 分割 | 句子数 | 说话者数 | 时长(毫秒) | 时长(小时) |
|---|---|---|---|---|
| balearic_female.tsv | 1665 | 131 | 9066912 | 2.52 |
| balearic_male.tsv | 1616 | 112 | 9129120 | 2.54 |
| central_female.tsv | 1742 | 301 | 9028276 | 2.51 |
| central_male.tsv | 1701 | 342 | 9011986 | 2.50 |
| northern_female.tsv | 1627 | 55 | 9402612 | 2.61 |
| northern_male.tsv | 1615 | 68 | 9249720 | 2.57 |
| northwestern_female.tsv | 1618 | 120 | 9136129 | 2.54 |
| northwestern_male.tsv | 1626 | 133 | 9055302 | 2.51 |
| train.tsv | 1801369 | 32894 | 9730691599 | 2702.97 |
| valencian_female.tsv | 1744 | 119 | 9107568 | 2.53 |
| valencian_male.tsv | 1631 | 151 | 9003500 | 2.50 |
数据集创建
策划理由
鉴于缺乏多样口音的数据来评估加泰罗尼亚ASR模型,我们重新调整了 Catalan Common Voice v17 - metadata annotated version 的数据,以创建一个基准数据集。
我们希望这个语料库能为加泰罗尼亚语说话者,一种少数语言,在其所有口音中提供语音技术的访问。
源数据
初始数据收集和规范化
原始数据来自 Catalan Common Voice v17 - metadata annotated version。
详细解释请参考该数据集的 README 文件。
源语言生产者
Common Voice项目是Mozilla基金会的一项倡议,旨在收集各种语言和口音的声音。这些声音由志愿者提供。
更多信息请访问 项目网站。
标注
标注过程
为了创建这个基准,我们使用了 Catalan Common Voice v17 - metadata annotated version 的标注。
详细信息请参见该数据集的 README 文件。
标注者
数据集 Catalan Common Voice v17 - metadata annotated version 包含 Common Voice项目 的自有标注和巴塞罗那大学(UB)专家团队的一些标注。详细信息请参见该数据集的 README 文件。
个人和敏感信息
该数据集由在线捐赠其声音的人组成。您同意不尝试确定Common Voice数据集中说话者的身份。
使用数据的注意事项
数据集的社会影响
该数据集由在线捐赠其声音的人组成。您同意不尝试确定Common Voice数据集中说话者的身份。
我们希望这个语料库能为加泰罗尼亚语说话者,一种少数语言,在其所有口音中提供语音技术的访问。
偏见的讨论
Common Voice中大多数加泰罗尼亚语的声音对应于40至60岁之间的男性,具有中央口音。我们重新调整了Common Voice中的数据,以创建一个考虑最常见性别(女性和男性)和口音(巴利阿里、中央、北部、西北部、瓦伦西亚)的ASR基准数据集。
由于缺乏数据,基准目前不评估其他性别和口音。我们希望将来能扩展它。
关于录音句子的内容,我们认为Common Voice的验证系统在移除可能产生有毒内容的句子方面是有效的。
其他已知限制
[N/A]
附加信息
数据集策展人
巴塞罗那超级计算中心(BSC)的语言技术单元(langtech@bsc.es)
这项工作由数字和公共职能部资助,由欧盟资助的 项目ILENIA 在参考号2022/TL22/00215337下进行。
许可信息
该数据集可用于任何目的,无论是学术还是商业,根据 CC BY 4.0 许可条款。提供适当的信用,提供许可证链接,并指示是否进行了更改。
引用信息
DOI []
贡献
Catalan Common Voice v17 - metadata annotated version 的手动标注委托给巴塞罗那大学(UB)的 STeL 团队。



