xaviviro/common_voice_16_1_ca_up_5

Name: xaviviro/common_voice_16_1_ca_up_5
Creator: xaviviro
Published: 2024-01-23 21:00:15
License: 暂无描述

Hugging Face2024-01-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/xaviviro/common_voice_16_1_ca_up_5

下载链接

链接失效反馈

官方服务：

资源简介：

数据集名为Common Voice Corpus 16.1 Català (up_votes>5)，是从mozilla-foundation/common_voice_16_1中提取的，仅包含加泰罗尼亚语的训练和测试分割，且只包含up_votes大于5的样本。数据集包含多个特征，如client_id, path, audio, sentence, up_votes, down_votes, age, gender, accent, locale, segment, variant等。数据集分为训练集和测试集，分别包含164061和525个样本。数据集的下载大小为4933447772字节，总大小为5830194718.68228字节。数据集的许可证为cc0-1.0，语言为加泰罗尼亚语。

提供机构：

xaviviro

原始信息汇总

数据集概述

数据集信息

特征

client_id: 字符串类型
path: 字符串类型
audio: 音频类型，采样率为48000
sentence: 字符串类型
up_votes: 64位整数类型
down_votes: 64位整数类型
age: 字符串类型
gender: 字符串类型
accent: 字符串类型
locale: 字符串类型
segment: 字符串类型
variant: 字符串类型

分割

train:
- 字节数: 5810210452.233682
- 样本数: 164061
test:
- 字节数: 19984266.44859813
- 样本数: 525

大小

下载大小: 4933447772
数据集大小: 5830194718.68228

配置

config_name: default
- data_files:
  - train: data/train-*
  - test: data/test-*

许可证

license: cc0-1.0

语言

language: ca

名称

pretty_name: Common Voice Corpus 16.1 Català (up_votes>5)

5,000+

优质数据集

54 个

任务类型

进入经典数据集