boringtaskai/common_voice_13_0_id

Name: boringtaskai/common_voice_13_0_id
Creator: boringtaskai
Published: 2024-05-11 15:11:13
License: 暂无描述

Hugging Face2024-05-11 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/boringtaskai/common_voice_13_0_id

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: client_id dtype: string - name: path dtype: string - name: audio dtype: audio: sampling_rate: 48000 - name: sentence dtype: string - name: up_votes dtype: int64 - name: down_votes dtype: int64 - name: age dtype: string - name: gender dtype: string - name: accent dtype: string - name: locale dtype: string - name: segment dtype: string - name: variant dtype: string splits: - name: train num_bytes: 165837392.4 num_examples: 5041 - name: validation num_bytes: 97314079.088 num_examples: 3292 - name: test num_bytes: 115280474.602 num_examples: 3649 - name: other num_bytes: 760938735.32 num_examples: 29260 - name: invalidated num_bytes: 69435648.97 num_examples: 2553 download_size: 1084617721 dataset_size: 1208806330.38 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* - split: other path: data/other-* - split: invalidated path: data/invalidated-* ---

数据集信息：特征列表： - 名称：客户端ID（client_id），数据类型：字符串 - 名称：路径（path），数据类型：字符串 - 名称：音频数据（audio），数据类型为复合音频类型，其子属性采样率（sampling_rate）为48000 Hz - 名称：参考文本（sentence），数据类型：字符串 - 名称：赞成票（up_votes），数据类型：64位整型（int64） - 名称：反对票（down_votes），数据类型：64位整型（int64） - 名称：年龄（age），数据类型：字符串 - 名称：性别（gender），数据类型：字符串 - 名称：口音（accent），数据类型：字符串 - 名称：语言区域（locale），数据类型：字符串 - 名称：语音片段（segment），数据类型：字符串 - 名称：变体（variant），数据类型：字符串数据分割： - 名称：训练集（train），数据字节数：165837392.4，样本数量：5041 - 名称：验证集（validation），数据字节数：97314079.088，样本数量：3292 - 名称：测试集（test），数据字节数：115280474.602，样本数量：3649 - 名称：其他集（other），数据字节数：760938735.32，样本数量：29260 - 名称：无效集（invalidated），数据字节数：69435648.97，样本数量：2553 下载总大小：1084617721字节数据集总存储大小：1208806330.38字节配置项： - 配置名称：默认配置（default），数据文件映射如下： - 训练集：对应路径data/train-* - 验证集：对应路径data/validation-* - 测试集：对应路径data/test-* - 其他集：对应路径data/other-* - 无效集：对应路径data/invalidated-*

提供机构：

boringtaskai

原始信息汇总

数据集概述

数据集特征

client_id: 数据类型为字符串。
path: 数据类型为字符串。
audio: 数据类型为音频，采样率为48000。
sentence: 数据类型为字符串。
up_votes: 数据类型为int64。
down_votes: 数据类型为int64。
age: 数据类型为字符串。
gender: 数据类型为字符串。
accent: 数据类型为字符串。
locale: 数据类型为字符串。
segment: 数据类型为字符串。
variant: 数据类型为字符串。

数据集分割

train: 大小为165837392.4字节，包含5041个样本。
validation: 大小为97314079.088字节，包含3292个样本。
test: 大小为115280474.602字节，包含3649个样本。
other: 大小为760938735.32字节，包含29260个样本。
invalidated: 大小为69435648.97字节，包含2553个样本。

数据集大小

下载大小: 1084617721字节。
数据集总大小: 1208806330.38字节。

配置文件

config_name: default
data_files:
- split: train, path: data/train-*
- split: validation, path: data/validation-*
- split: test, path: data/test-*
- split: other, path: data/other-*
- split: invalidated, path: data/invalidated-*

搜集汇总

数据集介绍

构建方式

在语音识别研究领域，构建高质量数据集是推动技术发展的基石。Common Voice 13.0 印尼语子集通过众包方式采集，志愿者通过在线平台录制并上传语音片段，同时提供对应的文本转录。每条数据均经过社区投票机制验证，依据赞成与反对票数筛选高质量样本，并标注了说话者的年龄、性别、口音及地域等元数据，确保了数据来源的多样性与可靠性。

特点

该数据集涵盖了丰富的语音特征，采样率为48kHz，提供了高保真的音频质量。数据集中包含训练、验证、测试及额外划分，样本总量超过四万条，覆盖了不同年龄层、性别和口音变体，能够有效支持模型对印尼语多样性的学习。每条数据均附带详细的元信息，便于研究者进行细粒度的语音分析或偏差研究。

使用方法

对于语音识别或语音合成任务，研究者可直接加载数据集的音频路径及对应文本句子进行模型训练。数据集已预先划分为标准训练集、验证集和测试集，支持端到端的模型评估。此外，可利用年龄、性别等元数据开展公平性或鲁棒性研究，通过过滤无效或额外划分的样本，确保实验数据的纯净性与可比性。

背景与挑战

背景概述

Common Voice项目由Mozilla基金会于2017年发起，旨在构建一个开源、多语言的语音数据集，以推动语音识别技术的民主化发展。该数据集的核心研究问题在于解决语音识别领域数据稀缺与偏见问题，特别是针对资源匮乏的语言。boringtaskai/common_voice_13_0_id作为其印度尼西亚语子集，通过众包方式收集了数千小时的语音样本，并标注了说话者年龄、性别、口音等元数据，显著提升了低资源语言语音模型的性能，对全球语音技术普及产生了深远影响。

当前挑战

该数据集致力于解决低资源语言语音识别的核心挑战，包括口音多样性、背景噪声干扰以及语音与文本对齐的复杂性。在构建过程中，面临众包数据质量控制的难题，需通过投票机制筛选可靠样本；同时，元数据标注的完整性与一致性难以保证，例如年龄、口音类别的标准化收集；此外，数据平衡性亦是关键挑战，需确保不同人口统计学群体的代表性，避免模型偏见。

常用场景

经典使用场景

在语音识别技术领域，Common Voice 13.0 印尼语子集为自动语音识别模型的训练与评估提供了关键资源。该数据集收录了数千条带有文本转录的印尼语语音样本，覆盖了多样的说话者年龄、性别和口音，使得研究者能够构建鲁棒的声学模型。通过利用这些经过众包验证的语音-文本对，模型能够学习印尼语的音素分布和声学特征，进而提升在真实场景下的识别准确率。

解决学术问题

该数据集有效应对了低资源语言语音识别研究中数据稀缺的挑战。印尼语作为全球重要语言，此前缺乏大规模、高质量的开源语音数据集，制约了相关模型的开发。Common Voice 印尼语子集通过社区贡献和严格的质量控制，提供了标注可靠的语音数据，解决了声学模型训练中数据不足的核心问题，推动了多语言语音技术的均衡发展，并为语言多样性保护提供了数据基础。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典研究工作，主要集中在多语言语音识别模型的适配与优化。例如，研究者利用其进行端到端语音识别系统的预训练与微调，探索跨语言迁移学习的效果。此外，也有工作专注于利用数据集中的人口统计信息（如口音、年龄）来分析和减轻模型偏见，提升语音技术对不同用户群体的公平性与普适性，推动了负责任人工智能的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集