five

DewiBrynJones/commonvoice_18_0_en_cy

收藏
Hugging Face2024-06-25 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/DewiBrynJones/commonvoice_18_0_en_cy
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含句子、语言和音频特征,音频的采样率为16000。数据集分为训练集、开发集、测试集以及特定语言的测试集(如威尔士语和英语)。每个分割的数据大小和样本数量也被详细列出。

This dataset includes features such as sentences, languages, and audio, with the audio sampled at 16000 Hz. The dataset is divided into training, development, test sets, and language-specific test sets (such as Welsh and English). The size of the data and the number of samples for each split are also detailed.
提供机构:
DewiBrynJones
原始信息汇总

数据集概述

数据特征

  • sentence: 文本类型,字符串格式。
  • language: 文本类型,字符串格式。
  • audio: 音频类型,采样率为16000。

数据集划分

  • train: 包含128171个样本,大小为4867317509.71字节。
  • dev: 包含26393个样本,大小为1059230094.106字节。
  • test: 包含26419个样本,大小为1065610163.761字节。
  • test_cy: 包含13209个样本,大小为508237077.0字节。
  • test_en: 包含13210个样本,大小为557373139.82字节。

数据集大小

  • 下载大小: 7965621359字节。
  • 总大小: 8057767984.396999字节。

配置

  • config_name: default
    • 数据文件路径:
      • train: data/train-*
      • dev: data/dev-*
      • test: data/test-*
      • test_cy: data/test_cy-*
      • test_en: data/test_en-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作