procit001/dutch_speaker_female_2024_v1
收藏Hugging Face2024-04-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/procit001/dutch_speaker_female_2024_v1
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: client_id
dtype: string
- name: path
dtype: string
- name: audio
dtype:
audio:
sampling_rate: 48000
- name: sentence
dtype: string
- name: up_votes
dtype: int64
- name: down_votes
dtype: int64
- name: age
dtype: string
- name: gender
dtype: string
- name: accent
dtype: string
- name: locale
dtype: string
- name: segment
dtype: string
- name: variant
dtype: string
splits:
- name: train
num_bytes: 71095974.21121806
num_examples: 2137
- name: validation
num_bytes: 54532774.013617136
num_examples: 1641
- name: test
num_bytes: 38123348.10488479
num_examples: 1088
- name: validated
num_bytes: 343141347.52026325
num_examples: 9873
- name: other
num_bytes: 5235481.077589318
num_examples: 164
download_size: 468061851
dataset_size: 512128924.92757255
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
- split: validated
path: data/validated-*
- split: other
path: data/other-*
---
提供机构:
procit001
原始信息汇总
数据集概述
特征信息
数据集包含以下特征:
- client_id: 类型为字符串。
- path: 类型为字符串。
- audio: 包含采样率为48000的音频数据。
- sentence: 类型为字符串。
- up_votes: 类型为整数(int64)。
- down_votes: 类型为整数(int64)。
- age: 类型为字符串。
- gender: 类型为字符串。
- accent: 类型为字符串。
- locale: 类型为字符串。
- segment: 类型为字符串。
- variant: 类型为字符串。
数据分割
数据集分为以下几个部分:
- train: 包含2137个样本,大小为71095974.21121806字节。
- validation: 包含1641个样本,大小为54532774.013617136字节。
- test: 包含1088个样本,大小为38123348.10488479字节。
- validated: 包含9873个样本,大小为343141347.52026325字节。
- other: 包含164个样本,大小为5235481.077589318字节。
数据大小
- 下载大小: 468061851字节。
- 数据集大小: 512128924.92757255字节。
配置信息
- default配置包含以下数据文件路径:
- train:
data/train-* - validation:
data/validation-* - test:
data/test-* - validated:
data/validated-* - other:
data/other-*
- train:



