five

projecte-aina/annotated_catalan_common_voice_v17

收藏
Hugging Face2025-10-09 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/annotated_catalan_common_voice_v17
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Common Voice语料库的加泰罗尼亚语子集(v17)的元数据标注版本,包含了263位说话者的元数据(性别和口音),这些元数据由专家团队标注。数据集的主要目的是为加泰罗尼亚语的自动语音识别(ASR)任务提供支持。数据集还包含了录音质量的标注,以及从用户自我声明信息中提取的元数据。数据集的创建过程包括从Common Voice语料库中筛选出录音时间超过1200秒的说话者,并由专家团队进行标注。数据集的结构包括数据实例、数据字段和数据分割,涵盖了自动语音识别、性别分类和口音分类等任务。

该数据集是Common Voice语料库的加泰罗尼亚语子集(v17)的元数据标注版本,包含了263位说话者的元数据(性别和口音),这些元数据由专家团队标注。数据集的主要目的是为加泰罗尼亚语的自动语音识别(ASR)任务提供支持。数据集还包含了录音质量的标注,以及从用户自我声明信息中提取的元数据。数据集的创建过程包括从Common Voice语料库中筛选出录音时间超过1200秒的说话者,并由专家团队进行标注。数据集的结构包括数据实例、数据字段和数据分割,涵盖了自动语音识别、性别分类和口音分类等任务。
提供机构:
projecte-aina
原始信息汇总

数据集概述

名称: annotated_catalan_common_voice_v17

语言: 加泰罗尼亚语 (ca)

许可证: CC BY 4.0

多语言性: 单语种

大小: 1M<n<10M

来源数据集: 扩展自Common_Voice

任务类别: 自动语音识别, 音频分类, 音频到音频

任务ID: 音频语言识别

数据集描述

数据集总结

  • 包含263位发言者的元数据(性别和口音),由专家团队标注。
  • 对应的发言者已录制超过1200秒的语音。
  • 新增字段包括:annotated_accent, annotated_gender, annotated_accent_agreement, annotated_gender_agreement, mean_quality, stdev_quality, propagated_gender, propagated_accents, propagated_accents_norm, assigned_accent, assigned_gender

支持的任务和排行榜

  • 自动语音识别
  • 性别分类
  • 口音分类

语言

  • 加泰罗尼亚语 (ca)

数据集结构

数据实例

  • 示例包括client_id, path, sentence, up_votes, down_votes, age, gender, accent, locale, segment, mean quality, stdev quality, annotated_accent, annotated_accent_agreement, annotated_gender, annotated_gender_agreement, propagated_gender, propagated_accents, propagated_accents_normalized, assigned_accent, assigned_gender

数据字段

  • 新增字段包括:annotated_gender, annotated_gender_agreement, annotated_accent, annotated_accent_agreement, mean quality, stdev quality, propagated_gender, propagated_accents, propagated_accents_normalized, assigned_accent, assigned_gender

数据分割

  • 与原始Common Voice数据集相同,未标注reported.tsv文件,因为它不包含发言者信息。

数据集创建

精选理由

  • 为了获得一个平衡且信息可靠的语料库,由巴塞罗那大学的专家团队提供准确标注。

源数据

  • 来自Common Voice的加泰罗尼亚语子集。

标注

  • 由巴塞罗那大学的CLiC团队进行标注。
  • 标注团队包括两名男性和一名女性,年龄在18-25岁之间,母语为加泰罗尼亚语。
  • 标注过程包括两轮,最终使用第二轮的标注结果。

个人和敏感信息

  • 数据集包含在线捐赠语音的个人,不得尝试确定发言者的身份。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作