projecte-aina/annotated_catalan_common_voice_v17

Name: projecte-aina/annotated_catalan_common_voice_v17
Creator: projecte-aina
Published: 2025-10-09 09:36:59
License: 暂无描述

Hugging Face2025-10-09 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/annotated_catalan_common_voice_v17

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Common Voice语料库的加泰罗尼亚语子集（v17）的元数据标注版本，包含了263位说话者的元数据（性别和口音），这些元数据由专家团队标注。数据集的主要目的是为加泰罗尼亚语的自动语音识别（ASR）任务提供支持。数据集还包含了录音质量的标注，以及从用户自我声明信息中提取的元数据。数据集的创建过程包括从Common Voice语料库中筛选出录音时间超过1200秒的说话者，并由专家团队进行标注。数据集的结构包括数据实例、数据字段和数据分割，涵盖了自动语音识别、性别分类和口音分类等任务。

提供机构：

projecte-aina

原始信息汇总

数据集概述

名称: annotated_catalan_common_voice_v17

语言: 加泰罗尼亚语 (ca)

许可证: CC BY 4.0

多语言性: 单语种

大小: 1M<n<10M

来源数据集: 扩展自Common_Voice

任务类别: 自动语音识别, 音频分类, 音频到音频

任务ID: 音频语言识别

数据集描述

数据集总结

包含263位发言者的元数据（性别和口音），由专家团队标注。
对应的发言者已录制超过1200秒的语音。
新增字段包括：annotated_accent, annotated_gender, annotated_accent_agreement, annotated_gender_agreement, mean_quality, stdev_quality, propagated_gender, propagated_accents, propagated_accents_norm, assigned_accent, assigned_gender。

支持的任务和排行榜

自动语音识别
性别分类
口音分类

语言

加泰罗尼亚语 (ca)

数据集结构

数据实例

示例包括client_id, path, sentence, up_votes, down_votes, age, gender, accent, locale, segment, mean quality, stdev quality, annotated_accent, annotated_accent_agreement, annotated_gender, annotated_gender_agreement, propagated_gender, propagated_accents, propagated_accents_normalized, assigned_accent, assigned_gender。

数据字段

新增字段包括：annotated_gender, annotated_gender_agreement, annotated_accent, annotated_accent_agreement, mean quality, stdev quality, propagated_gender, propagated_accents, propagated_accents_normalized, assigned_accent, assigned_gender。