farukclk/voxpopuli-en-accented-split

Name: farukclk/voxpopuli-en-accented-split
Creator: farukclk
Published: 2025-12-10 11:20:38
License: 暂无描述

Hugging Face2025-12-10 更新2025-12-20 收录

下载链接：

https://hf-mirror.com/datasets/farukclk/voxpopuli-en-accented-split

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: audio_id dtype: string - name: language dtype: class_label: names: '0': en '1': de '2': fr '3': es '4': pl '5': it '6': ro '7': hu '8': cs '9': nl '10': fi '11': hr '12': sk '13': sl '14': et '15': lt '16': en_accented - name: audio dtype: audio: sampling_rate: 16000 - name: raw_text dtype: string - name: normalized_text dtype: string - name: gender dtype: string - name: speaker_id dtype: string - name: is_gold_transcript dtype: bool - name: accent dtype: string splits: - name: train num_bytes: 4834785322.945902 num_examples: 6709 - name: test num_bytes: 1225403536.5890985 num_examples: 1678 download_size: 4949533515 dataset_size: 6060188859.535 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* ---

本数据集信息如下： ## 特征字段该数据集包含以下特征项： 1. audio_id（音频ID）：数据类型为字符串，用于唯一标识单条音频数据。 2. language（语言）：分类标签类型字段，类别与索引的对应关系为：0→英语（en）、1→德语（de）、2→法语（fr）、3→西班牙语（es）、4→波兰语（pl）、5→意大利语（it）、6→罗马尼亚语（ro）、7→匈牙利语（hu）、8→捷克语（cs）、9→荷兰语（nl）、10→芬兰语（fi）、11→克罗地亚语（hr）、12→斯洛伐克语（sk）、13→斯洛文尼亚语（sl）、14→爱沙尼亚语（et）、15→立陶宛语（lt）、16→带口音英语（en_accented）。 3. audio（音频）：音频数据类型，采样率为16000Hz。 4. raw_text（原始文本）：未经标准化处理的原始转录文本，数据类型为字符串。 5. normalized_text（归一化文本）：经过标准化清洗的转录文本，数据类型为字符串。 6. gender（性别）：标注说话人性别的字符串类型字段。 7. speaker_id（说话人ID）：用于唯一标识发声者的字符串类型字段。 8. is_gold_transcript（是否为金标准转录文本）：布尔类型字段，用于标记该转录文本是否为经过验证的标准标注结果。 9. accent（口音）：标注说话人口音特征的字符串类型字段。 ## 数据集划分数据集划分为训练集与测试集两个子集： - 训练集（train）：占用存储空间为4834785322.945902字节，共包含6709条样本。 - 测试集（test）：占用存储空间为1225403536.5890985字节，共包含1678条样本。该数据集整体下载大小为4949533515字节，总数据存储容量为6060188859.535字节。 ## 数据集配置默认配置下的数据文件映射关系为：训练集数据对应data/train-*路径下的文件，测试集数据对应data/test-*路径下的文件。

提供机构：

farukclk

5,000+

优质数据集

54 个

任务类型

进入经典数据集