five

projecte-aina/commonvoice_benchmark_catalan_accents

收藏
Hugging Face2025-02-14 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/commonvoice_benchmark_catalan_accents
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是基于加泰罗尼亚语的语音识别和音频分类任务,旨在为加泰罗尼亚语的不同口音(如巴利阿里、中部、北部、西北部、瓦伦西亚)和性别(男性和女性)提供基准测试。数据集来源于Common Voice项目的加泰罗尼亚语版本,并经过专家团队的注释和重新划分,以创建适合自动语音识别(ASR)模型的基准数据集。数据集包含约2700小时的训练数据和每个口音和性别组合的2.5小时测试数据。

该数据集是基于加泰罗尼亚语的语音识别和音频分类任务,旨在为加泰罗尼亚语的不同口音(如巴利阿里、中部、北部、西北部、瓦伦西亚)和性别(男性和女性)提供基准测试。数据集来源于Common Voice项目的加泰罗尼亚语版本,并经过专家团队的注释和重新划分,以创建适合自动语音识别(ASR)模型的基准数据集。数据集包含约2700小时的训练数据和每个口音和性别组合的2.5小时测试数据。
提供机构:
projecte-aina
原始信息汇总

Common Voice Benchmark Catalan Accents 数据集概述

数据集描述

数据集摘要

该数据集是对 Catalan Common Voice v17 - metadata annotated version 语料库的新呈现,重新定义了分割以评估具有不同加泰罗尼亚口音的ASR模型。从验证的录音分割中,我们为语言的主要口音(巴利阿里、中央、北部、西北部、瓦伦西亚)选择了必要的男性和女性说话者,以收集大约两个半小时的多样化语音录音。因此,我们创建了十个基准分割,这些分割是由考虑的5个口音和2个性别(女性和男性)的组合产生的。

未包含在这些分割中的说话者的录音已被分组到训练分割中。

支持的任务和排行榜

自动语音识别(Automatic Speech Recognition)。

语言

该数据集是加泰罗尼亚语(ca)。

数据集结构

数据实例

json { "client_id": "69dafb41ddc0ea2785719305fdc5c8d79c4b2829d9f3325bda707dcaa553f95c5fbf4b072970d9004d3e31543fcb2c55e252dc904c4fb5aee2a5e5500df90967", "path": "common_voice_ca_19909748.mp3", "sentence": "En el carrer de lesglésia es troben bona part dels edificis importants de la vila.", "up_votes": 2, "down_votes": 0, "age": "thirties", "gender": "male_masculine", "accent": "balear", "variant": "", "locale": "ca", "segment": "", "mean quality": "4.0", "stdev quality": "0.0", "annotated_accent": "balearic", "annotated_accent_agreement": "100.0", "annotated_gender": "male", "annotated_gender_agreement": "100.0", "propagated_gender": "male_masculine", "propagated_accents": "balear", "propagated_accents_normalized": "balearic", "assigned_accent": "balearic", "assigned_gender": "male_masculine" }

数据字段

数据字段保留自 Catalan Common Voice v17 - metadata annotated version

详细解释请参考该数据集的 README 文件。

主要数据字段包括:

  • client_id(string): 录音的客户端ID
  • path(string): 音频文件的路径
  • sentence_id(string): 文本句子的ID
  • sentence(string): 用户被提示说的句子
  • sentence_domain(string): 句子的语义域
  • up_votes(int64): 音频文件获得的赞数
  • down_votes(int64): 音频文件获得的踩数
  • age(string): 说话者的自我报告年龄
  • gender(string): 说话者的自我报告性别
  • accent(string): 说话者的自我报告口音
  • locale(string): 说话者的地区
  • segment(string): 通常为空字段

在标注版本中,添加了以下字段:

  • annotated_gender(string): 专家团队标注的性别
  • annotated_gender_agreement(float): 标注团队对说话者性别的共识
  • annotated_accent(string): 专家团队标注的口音
  • annotated_accent_agreement(float): 标注团队对说话者口音的共识
  • mean quality(float): 说话者录音的平均标注质量
  • stdev quality(float): 标注者之间质量标注的偏差
  • propagated_gender(string): 用户在某些录音中自我声明的性别
  • propagated_accents(string): 用户在某些录音中自我声明的口音
  • propagated_accents_normalized(string): 传播的口音,标准化为直到版本7使用的封闭选项列表
  • assigned_accent(string): 分配给说话者的口音
  • assigned_gender(string): 分配给说话者的性别

数据分割

分割已重新调整,以获得每个考虑的5个口音和2个性别组合的两个半小时的录音。

分割 句子数 说话者数 时长(毫秒) 时长(小时)
balearic_female.tsv 1665 131 9066912 2.52
balearic_male.tsv 1616 112 9129120 2.54
central_female.tsv 1742 301 9028276 2.51
central_male.tsv 1701 342 9011986 2.50
northern_female.tsv 1627 55 9402612 2.61
northern_male.tsv 1615 68 9249720 2.57
northwestern_female.tsv 1618 120 9136129 2.54
northwestern_male.tsv 1626 133 9055302 2.51
train.tsv 1801369 32894 9730691599 2702.97
valencian_female.tsv 1744 119 9107568 2.53
valencian_male.tsv 1631 151 9003500 2.50

数据集创建

策划理由

鉴于缺乏多样口音的数据来评估加泰罗尼亚ASR模型,我们重新调整了 Catalan Common Voice v17 - metadata annotated version 的数据,以创建一个基准数据集。

我们希望这个语料库能为加泰罗尼亚语说话者,一种少数语言,在其所有口音中提供语音技术的访问。

源数据

初始数据收集和规范化

原始数据来自 Catalan Common Voice v17 - metadata annotated version

详细解释请参考该数据集的 README 文件。

源语言生产者

Common Voice项目是Mozilla基金会的一项倡议,旨在收集各种语言和口音的声音。这些声音由志愿者提供。

更多信息请访问 项目网站

标注

标注过程

为了创建这个基准,我们使用了 Catalan Common Voice v17 - metadata annotated version 的标注。

详细信息请参见该数据集的 README 文件。

标注者

数据集 Catalan Common Voice v17 - metadata annotated version 包含 Common Voice项目 的自有标注和巴塞罗那大学(UB)专家团队的一些标注。详细信息请参见该数据集的 README 文件。

个人和敏感信息

该数据集由在线捐赠其声音的人组成。您同意不尝试确定Common Voice数据集中说话者的身份。

使用数据的注意事项

数据集的社会影响

该数据集由在线捐赠其声音的人组成。您同意不尝试确定Common Voice数据集中说话者的身份。

我们希望这个语料库能为加泰罗尼亚语说话者,一种少数语言,在其所有口音中提供语音技术的访问。

偏见的讨论

Common Voice中大多数加泰罗尼亚语的声音对应于40至60岁之间的男性,具有中央口音。我们重新调整了Common Voice中的数据,以创建一个考虑最常见性别(女性和男性)和口音(巴利阿里、中央、北部、西北部、瓦伦西亚)的ASR基准数据集。

由于缺乏数据,基准目前不评估其他性别和口音。我们希望将来能扩展它。

关于录音句子的内容,我们认为Common Voice的验证系统在移除可能产生有毒内容的句子方面是有效的。

其他已知限制

[N/A]

附加信息

数据集策展人

巴塞罗那超级计算中心(BSC)的语言技术单元(langtech@bsc.es)

这项工作由数字和公共职能部资助,由欧盟资助的 项目ILENIA 在参考号2022/TL22/00215337下进行。

许可信息

该数据集可用于任何目的,无论是学术还是商业,根据 CC BY 4.0 许可条款。提供适当的信用,提供许可证链接,并指示是否进行了更改。

引用信息

DOI []

贡献

Catalan Common Voice v17 - metadata annotated version 的手动标注委托给巴塞罗那大学(UB)的 STeL 团队。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作