Edmon02/hyvoxpopuli
收藏数据集卡片 - HyVoxPopuli
数据集描述
数据集摘要
HyVoxPopuli 包含 18 种语言的标注数据。可以通过传递特定语言的名称作为配置名称来加载特定语言的数据集。
支持的任务和排行榜
- 自动语音识别 (automatic-speech-recognition):该数据集可用于训练自动语音识别 (ASR) 模型。模型接收音频文件并被要求将其转录为书面文本。最常见的评估指标是词错误率 (WER)。
数据集结构
数据实例
python { audio_id: segment_00000072, audio: { path: /home/polina/.cache/huggingface/datasets/downloads/extracted/254a284babeb60d348239423161397844bbfb209560b31edecb7f2b91379da7d/segment_00000072.wav, array: array([-0.01434326, -0.01055908, 0.00106812, ..., 0.00646973], dtype=float32), sampling_rate: 16000 }, raw_text: , normalized_text: poast genitalnog sakaenja ena u europi tek je jedna od manifestacija takve tetne politike., gender: female, speaker_id: speaker_2, is_gold_transcript: True, accent: None }
数据字段
audio_id(string) - 音频片段的IDaudio(datasets.Audio) - 包含音频路径、解码后的音频数组和采样率的字典。在非流模式(默认)下,路径指向本地提取的音频。在流模式下,路径是音频在其归档文件中的相对路径(因为文件未下载并本地提取)。raw_text(string) - 原始(正字法)音频片段文本normalized_text(string) - 规范化音频片段转录gender(string) - 说话者的性别speaker_id(string) - 说话者的IDis_gold_transcript(bool) - 是否为黄金转录accent(string) - 口音类型,例如 "en_lt",如果适用,否则为 "None"。
数据分割
所有配置包含三个数据分割:训练集、验证集和测试集。
数据集创建
数据来源
原始数据收集自 Գրքասեր site
其他信息
引用信息
请引用以下论文: bibtex @inproceedings{wang-etal-2021-voxpopuli, title = "{H}y{V}ox{P}opuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation", author = "Edmon, Sahakyan", booktitle = "Գրքասեր site audio and pdf books", month = feb, year = "2024", address = "Online", publisher = "Researcher" }




