projecte-aina/annotated_catalan_common_voice_v17
收藏Hugging Face2025-10-09 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/annotated_catalan_common_voice_v17
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Common Voice语料库的加泰罗尼亚语子集(v17)的元数据标注版本,包含了263位说话者的元数据(性别和口音),这些元数据由专家团队标注。数据集的主要目的是为加泰罗尼亚语的自动语音识别(ASR)任务提供支持。数据集还包含了录音质量的标注,以及从用户自我声明信息中提取的元数据。数据集的创建过程包括从Common Voice语料库中筛选出录音时间超过1200秒的说话者,并由专家团队进行标注。数据集的结构包括数据实例、数据字段和数据分割,涵盖了自动语音识别、性别分类和口音分类等任务。
该数据集是Common Voice语料库的加泰罗尼亚语子集(v17)的元数据标注版本,包含了263位说话者的元数据(性别和口音),这些元数据由专家团队标注。数据集的主要目的是为加泰罗尼亚语的自动语音识别(ASR)任务提供支持。数据集还包含了录音质量的标注,以及从用户自我声明信息中提取的元数据。数据集的创建过程包括从Common Voice语料库中筛选出录音时间超过1200秒的说话者,并由专家团队进行标注。数据集的结构包括数据实例、数据字段和数据分割,涵盖了自动语音识别、性别分类和口音分类等任务。
提供机构:
projecte-aina
原始信息汇总
数据集概述
名称: annotated_catalan_common_voice_v17
语言: 加泰罗尼亚语 (ca)
许可证: CC BY 4.0
多语言性: 单语种
大小: 1M<n<10M
来源数据集: 扩展自Common_Voice
任务类别: 自动语音识别, 音频分类, 音频到音频
任务ID: 音频语言识别
数据集描述
数据集总结
- 包含263位发言者的元数据(性别和口音),由专家团队标注。
- 对应的发言者已录制超过1200秒的语音。
- 新增字段包括:
annotated_accent,annotated_gender,annotated_accent_agreement,annotated_gender_agreement,mean_quality,stdev_quality,propagated_gender,propagated_accents,propagated_accents_norm,assigned_accent,assigned_gender。
支持的任务和排行榜
- 自动语音识别
- 性别分类
- 口音分类
语言
- 加泰罗尼亚语 (ca)
数据集结构
数据实例
- 示例包括
client_id,path,sentence,up_votes,down_votes,age,gender,accent,locale,segment,mean quality,stdev quality,annotated_accent,annotated_accent_agreement,annotated_gender,annotated_gender_agreement,propagated_gender,propagated_accents,propagated_accents_normalized,assigned_accent,assigned_gender。
数据字段
- 新增字段包括:
annotated_gender,annotated_gender_agreement,annotated_accent,annotated_accent_agreement,mean quality,stdev quality,propagated_gender,propagated_accents,propagated_accents_normalized,assigned_accent,assigned_gender。
数据分割
- 与原始Common Voice数据集相同,未标注
reported.tsv文件,因为它不包含发言者信息。
数据集创建
精选理由
- 为了获得一个平衡且信息可靠的语料库,由巴塞罗那大学的专家团队提供准确标注。
源数据
- 来自Common Voice的加泰罗尼亚语子集。
标注
- 由巴塞罗那大学的CLiC团队进行标注。
- 标注团队包括两名男性和一名女性,年龄在18-25岁之间,母语为加泰罗尼亚语。
- 标注过程包括两轮,最终使用第二轮的标注结果。
个人和敏感信息
- 数据集包含在线捐赠语音的个人,不得尝试确定发言者的身份。



