five

farukclk/voxpopuli-en-accented-split

收藏
Hugging Face2025-12-10 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/farukclk/voxpopuli-en-accented-split
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: audio_id dtype: string - name: language dtype: class_label: names: '0': en '1': de '2': fr '3': es '4': pl '5': it '6': ro '7': hu '8': cs '9': nl '10': fi '11': hr '12': sk '13': sl '14': et '15': lt '16': en_accented - name: audio dtype: audio: sampling_rate: 16000 - name: raw_text dtype: string - name: normalized_text dtype: string - name: gender dtype: string - name: speaker_id dtype: string - name: is_gold_transcript dtype: bool - name: accent dtype: string splits: - name: train num_bytes: 4834785322.945902 num_examples: 6709 - name: test num_bytes: 1225403536.5890985 num_examples: 1678 download_size: 4949533515 dataset_size: 6060188859.535 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* ---

本数据集信息如下: ## 特征字段 该数据集包含以下特征项: 1. audio_id(音频ID):数据类型为字符串,用于唯一标识单条音频数据。 2. language(语言):分类标签类型字段,类别与索引的对应关系为:0→英语(en)、1→德语(de)、2→法语(fr)、3→西班牙语(es)、4→波兰语(pl)、5→意大利语(it)、6→罗马尼亚语(ro)、7→匈牙利语(hu)、8→捷克语(cs)、9→荷兰语(nl)、10→芬兰语(fi)、11→克罗地亚语(hr)、12→斯洛伐克语(sk)、13→斯洛文尼亚语(sl)、14→爱沙尼亚语(et)、15→立陶宛语(lt)、16→带口音英语(en_accented)。 3. audio(音频):音频数据类型,采样率为16000Hz。 4. raw_text(原始文本):未经标准化处理的原始转录文本,数据类型为字符串。 5. normalized_text(归一化文本):经过标准化清洗的转录文本,数据类型为字符串。 6. gender(性别):标注说话人性别的字符串类型字段。 7. speaker_id(说话人ID):用于唯一标识发声者的字符串类型字段。 8. is_gold_transcript(是否为金标准转录文本):布尔类型字段,用于标记该转录文本是否为经过验证的标准标注结果。 9. accent(口音):标注说话人口音特征的字符串类型字段。 ## 数据集划分 数据集划分为训练集与测试集两个子集: - 训练集(train):占用存储空间为4834785322.945902字节,共包含6709条样本。 - 测试集(test):占用存储空间为1225403536.5890985字节,共包含1678条样本。 该数据集整体下载大小为4949533515字节,总数据存储容量为6060188859.535字节。 ## 数据集配置 默认配置下的数据文件映射关系为:训练集数据对应data/train-*路径下的文件,测试集数据对应data/test-*路径下的文件。
提供机构:
farukclk
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作