Predict9731/voxpopuli_windows_cs
收藏Hugging Face2023-12-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Predict9731/voxpopuli_windows_cs
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: audio_id
dtype: string
- name: language
dtype:
class_label:
names:
'0': en
'1': de
'2': fr
'3': es
'4': pl
'5': it
'6': ro
'7': hu
'8': cs
'9': nl
'10': fi
'11': hr
'12': sk
'13': sl
'14': et
'15': lt
'16': en_accented
- name: audio
dtype:
audio:
sampling_rate: 16000
- name: raw_text
dtype: string
- name: normalized_text
dtype: string
- name: gender
dtype: string
- name: speaker_id
dtype: string
- name: is_gold_transcript
dtype: bool
- name: accent
dtype: string
splits:
- name: train
num_bytes: 6549063392.628
num_examples: 18902
download_size: 10449462424
dataset_size: 6549063392.628
---
# Dataset Card for "voxpopuli_windows_cs"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
Predict9731
原始信息汇总
数据集概述
特征信息
- audio_id: 字符串类型,音频的唯一标识符。
- language: 分类标签类型,表示语言种类,包括:
- 0: 英语
- 1: 德语
- 2: 法语
- 3: 西班牙语
- 4: 波兰语
- 5: 意大利语
- 6: 罗马尼亚语
- 7: 匈牙利语
- 8: 捷克语
- 9: 荷兰语
- 10: 芬兰语
- 11: 克罗地亚语
- 12: 斯洛伐克语
- 13: 斯洛文尼亚语
- 14: 爱沙尼亚语
- 15: 立陶宛语
- 16: 带有口音的英语
- audio: 音频类型,采样率为16000。
- raw_text: 字符串类型,原始文本。
- normalized_text: 字符串类型,规范化文本。
- gender: 字符串类型,性别。
- speaker_id: 字符串类型,说话者标识符。
- is_gold_transcript: 布尔类型,是否为黄金转录。
- accent: 字符串类型,口音。
数据分割
- train: 训练集,包含18902个样本,大小为6549063392.628字节。
数据集大小
- 下载大小: 10449462424字节
- 数据集大小: 6549063392.628字节



