DewiBrynJones/commonvoice_18_0_en_cy
收藏Hugging Face2024-06-25 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/DewiBrynJones/commonvoice_18_0_en_cy
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含句子、语言和音频特征,音频的采样率为16000。数据集分为训练集、开发集、测试集以及特定语言的测试集(如威尔士语和英语)。每个分割的数据大小和样本数量也被详细列出。
This dataset includes features such as sentences, languages, and audio, with the audio sampled at 16000 Hz. The dataset is divided into training, development, test sets, and language-specific test sets (such as Welsh and English). The size of the data and the number of samples for each split are also detailed.
提供机构:
DewiBrynJones
原始信息汇总
数据集概述
数据特征
- sentence: 文本类型,字符串格式。
- language: 文本类型,字符串格式。
- audio: 音频类型,采样率为16000。
数据集划分
- train: 包含128171个样本,大小为4867317509.71字节。
- dev: 包含26393个样本,大小为1059230094.106字节。
- test: 包含26419个样本,大小为1065610163.761字节。
- test_cy: 包含13209个样本,大小为508237077.0字节。
- test_en: 包含13210个样本,大小为557373139.82字节。
数据集大小
- 下载大小: 7965621359字节。
- 总大小: 8057767984.396999字节。
配置
- config_name: default
- 数据文件路径:
- train: data/train-*
- dev: data/dev-*
- test: data/test-*
- test_cy: data/test_cy-*
- test_en: data/test_en-*
- 数据文件路径:



