Edmon02/hyvoxpopuli

Name: Edmon02/hyvoxpopuli
Creator: Edmon02
Published: 2024-02-16 10:33:29
License: 暂无描述

Hugging Face2024-02-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Edmon02/hyvoxpopuli

下载链接

链接失效反馈

官方服务：

资源简介：

HyVoxPopuli是一个包含18种语言标注数据的数据集，主要用于自动语音识别（ASR）任务。数据集中的每个实例包括音频ID、音频文件路径、原始文本、标准化文本、说话者性别、说话者ID、是否为黄金转录文本以及口音类型。数据集分为训练、验证和测试三个部分。数据集的创建和注释过程、来源、个人和敏感信息、社会影响、偏见讨论等信息尚未提供。

提供机构：

Edmon02

原始信息汇总

数据集卡片 - HyVoxPopuli

数据集描述

数据集摘要

HyVoxPopuli 包含 18 种语言的标注数据。可以通过传递特定语言的名称作为配置名称来加载特定语言的数据集。

支持的任务和排行榜

自动语音识别 (automatic-speech-recognition)：该数据集可用于训练自动语音识别 (ASR) 模型。模型接收音频文件并被要求将其转录为书面文本。最常见的评估指标是词错误率 (WER)。

数据集结构

数据实例

python { audio_id: segment_00000072, audio: { path: /home/polina/.cache/huggingface/datasets/downloads/extracted/254a284babeb60d348239423161397844bbfb209560b31edecb7f2b91379da7d/segment_00000072.wav, array: array([-0.01434326, -0.01055908, 0.00106812, ..., 0.00646973], dtype=float32), sampling_rate: 16000 }, raw_text: , normalized_text: poast genitalnog sakaenja ena u europi tek je jedna od manifestacija takve tetne politike., gender: female, speaker_id: speaker_2, is_gold_transcript: True, accent: None }

数据字段

audio_id (string) - 音频片段的ID
audio (datasets.Audio) - 包含音频路径、解码后的音频数组和采样率的字典。在非流模式（默认）下，路径指向本地提取的音频。在流模式下，路径是音频在其归档文件中的相对路径（因为文件未下载并本地提取）。
raw_text (string) - 原始（正字法）音频片段文本
normalized_text (string) - 规范化音频片段转录
gender (string) - 说话者的性别
speaker_id (string) - 说话者的ID
is_gold_transcript (bool) - 是否为黄金转录
accent (string) - 口音类型，例如 "en_lt"，如果适用，否则为 "None"。

数据分割

所有配置包含三个数据分割：训练集、验证集和测试集。

数据集创建

数据来源

原始数据收集自 Գրքասեր site

其他信息

引用信息

请引用以下论文： bibtex @inproceedings{wang-etal-2021-voxpopuli, title = "{H}y{V}ox{P}opuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation", author = "Edmon, Sahakyan", booktitle = "Գրքասեր site audio and pdf books", month = feb, year = "2024", address = "Online", publisher = "Researcher" }

搜集汇总

数据集介绍

构建方式

在亚美尼亚语语音识别研究领域，高质量数据集的构建对于推动技术发展至关重要。HyVoxPopuli数据集源于Facebook VoxPopuli项目，其构建过程经过严谨设计。首先从原始多语言语料库中精准提取亚美尼亚语语音片段，随后实施严格的质量筛选机制，保留音频清晰度较高的片段。核心环节在于组织专家对转录文本进行人工校验，确保文本与语音内容的高度一致性。最终将数据转换为标准化格式，并添加文本归一化处理，形成包含训练集、验证集和测试集的完整体系。

使用方法

研究人员可通过Hugging Face生态系统便捷地加载此数据集。使用datasets库的load_dataset函数即可获取完整数据或特定划分。数据集采用Parquet格式存储，内含音频波形数组、采样率及标注文本等结构化字段。典型应用场景包括：基于Wav2Vec2等预训练模型进行微调，构建端到端语音识别系统；利用说话人信息开展语音特征分析；借助黄金标注数据评估模型性能。数据加载后可直接融入主流深度学习框架进行训练与验证。

背景与挑战

背景概述

在自动语音识别技术蓬勃发展的背景下，针对低资源语言的语音数据稀缺问题日益凸显。HyVoxPopuli数据集于2023年由研究社区基于Facebook VoxPopuli数据集构建，专注于亚美尼亚语这一资源相对匮乏的语言。该数据集的核心研究问题在于为亚美尼亚语自动语音识别模型的训练与评估提供高质量、专家验证的语音-文本配对资源，旨在推动特定语言语音技术的民主化进程，对提升低资源语言的信息可及性具有显著影响力。

当前挑战

该数据集致力于解决亚美尼亚语自动语音识别这一领域问题，其核心挑战在于克服低资源语言中高质量训练数据稀缺、方言或口音变体覆盖不足，以及领域特定词汇识别困难等障碍。在构建过程中，挑战主要集中于从大规模多语言语料库中精确筛选并提取亚美尼亚语语音片段，确保音频质量与转录文本的准确性，以及通过专家验证流程来保障数据标注的可靠性，这些步骤均需耗费大量专业人力与计算资源。

常用场景

经典使用场景

在亚美尼亚语自动语音识别领域，HyVoxPopuli数据集作为高质量、专家验证的语音-文本对资源，其经典使用场景聚焦于训练和评估端到端ASR模型。该数据集源自欧洲议会演讲录音，提供了标准化的音频波形与规范化文本标注，研究者可借此构建基于深度学习的声学与语言模型，优化亚美尼亚语在复杂声学环境下的识别准确率。

解决学术问题

该数据集有效缓解了低资源语言在语音技术研究中数据匮乏的困境，为亚美尼亚语ASR提供了基准评测平台。其专家验证的转录文本解决了语音数据标注一致性难题，支持口音、性别等多维度分析，推动了跨语言语音模型迁移学习、少样本语音识别等前沿方向的发展，显著提升了学术社区对非主流语言语音处理的关注度。

实际应用

在实际应用中，HyVoxPopuli可赋能亚美尼亚语智能语音助手、议会演讲实时转录系统及教育领域的发音评估工具。其高质量的语音数据能够提升虚拟助理在本地化场景中的交互准确性，同时为政府机构提供多语言会议记录自动化支持，促进语音技术在公共服务、文化传承等领域的落地。

数据集最近研究