farukclk/voxpopuli-en-accented-split
收藏Hugging Face2025-12-10 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/farukclk/voxpopuli-en-accented-split
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: audio_id
dtype: string
- name: language
dtype:
class_label:
names:
'0': en
'1': de
'2': fr
'3': es
'4': pl
'5': it
'6': ro
'7': hu
'8': cs
'9': nl
'10': fi
'11': hr
'12': sk
'13': sl
'14': et
'15': lt
'16': en_accented
- name: audio
dtype:
audio:
sampling_rate: 16000
- name: raw_text
dtype: string
- name: normalized_text
dtype: string
- name: gender
dtype: string
- name: speaker_id
dtype: string
- name: is_gold_transcript
dtype: bool
- name: accent
dtype: string
splits:
- name: train
num_bytes: 4834785322.945902
num_examples: 6709
- name: test
num_bytes: 1225403536.5890985
num_examples: 1678
download_size: 4949533515
dataset_size: 6060188859.535
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
---
本数据集信息如下:
## 特征字段
该数据集包含以下特征项:
1. audio_id(音频ID):数据类型为字符串,用于唯一标识单条音频数据。
2. language(语言):分类标签类型字段,类别与索引的对应关系为:0→英语(en)、1→德语(de)、2→法语(fr)、3→西班牙语(es)、4→波兰语(pl)、5→意大利语(it)、6→罗马尼亚语(ro)、7→匈牙利语(hu)、8→捷克语(cs)、9→荷兰语(nl)、10→芬兰语(fi)、11→克罗地亚语(hr)、12→斯洛伐克语(sk)、13→斯洛文尼亚语(sl)、14→爱沙尼亚语(et)、15→立陶宛语(lt)、16→带口音英语(en_accented)。
3. audio(音频):音频数据类型,采样率为16000Hz。
4. raw_text(原始文本):未经标准化处理的原始转录文本,数据类型为字符串。
5. normalized_text(归一化文本):经过标准化清洗的转录文本,数据类型为字符串。
6. gender(性别):标注说话人性别的字符串类型字段。
7. speaker_id(说话人ID):用于唯一标识发声者的字符串类型字段。
8. is_gold_transcript(是否为金标准转录文本):布尔类型字段,用于标记该转录文本是否为经过验证的标准标注结果。
9. accent(口音):标注说话人口音特征的字符串类型字段。
## 数据集划分
数据集划分为训练集与测试集两个子集:
- 训练集(train):占用存储空间为4834785322.945902字节,共包含6709条样本。
- 测试集(test):占用存储空间为1225403536.5890985字节,共包含1678条样本。
该数据集整体下载大小为4949533515字节,总数据存储容量为6060188859.535字节。
## 数据集配置
默认配置下的数据文件映射关系为:训练集数据对应data/train-*路径下的文件,测试集数据对应data/test-*路径下的文件。
提供机构:
farukclk



