Hy-Generated-audio-data-with-cv20.0
收藏Hugging Face2025-05-24 更新2025-05-25 收录
下载链接:
https://huggingface.co/datasets/ErikMkrtchyan/Hy-Generated-audio-data-with-cv20.0
下载链接
链接失效反馈官方服务:
资源简介:
Hy-Generated数据集是一个包含真实和合成音频片段的Armenian语言语音数据集。它由训练集、测试集、验证集和生成集组成,其中训练集、测试集和验证集来自Common Voice 20.0 Armenian数据集,而生成集是通过细调F5-TTS模型生成的100,000个高质量语音片段,涵盖了404个均匀分布的合成声音。
创建时间:
2025-05-20
原始信息汇总
Hy-Generated Audio Data with CV20.0 数据集概述
数据集基本信息
- 许可证: cc0-1.0
- 语言: 亚美尼亚语 (hy)
- 数据集名称: Hy-Generated
- 总大小: 20,756,870,307.952 字节
- 下载大小: 19,300,182,564 字节
数据集结构
特征
audio: 音频数据text: 文本数据 (字符串)age: 年龄信息 (字符串)gender: 性别信息 (字符串)client_id: 客户端ID (字符串)
数据分块
| 分块名称 | 样本数量 | 大小 (字节) |
|---|---|---|
train |
9,300 | 342,225,811.1 |
test |
5,818 | 207,494,311.74 |
eval |
5,856 | 199,669,352.112 |
generated |
100,000 | 20,007,480,833 |
数据集内容
- 真实音频数据: 来自 Common Voice 20.0 亚美尼亚语数据集的分块 (
train,test,eval) - 生成音频数据: 100,000 条高质量音频,使用微调的 F5-TTS 模型合成,涵盖 404 种均衡分布的合成声音
数据集统计
| 分块 | 音频数量 | 时长 (小时) |
|---|---|---|
train |
9,300 | 13.53 |
test |
5,818 | 9.16 |
eval |
5,856 | 8.76 |
generated |
100,000 | 113.61 |
总时长: 约 145 小时
加载方式
python from datasets import load_dataset
dataset = load_dataset("ErikMkrtchyan/Hy-Generated-audio-data-with-cv20.0")
搜集汇总
数据集介绍

构建方式
该数据集整合了真实与合成的亚美尼亚语音频数据,其构建过程体现了多源数据融合的先进理念。原始数据来源于Common Voice 20.0项目的亚美尼亚语子集,经过严格筛选形成train、test和eval三个标准划分。创新性地通过F5-TTS文本转语音模型生成了10万条高质量合成语音,采用404种均衡分布的虚拟声纹特征,显著扩展了数据多样性。所有音频样本均配套包含文本转录及说话者年龄、性别等元数据,构建过程注重数据平衡性与技术可追溯性。
特点
作为亚美尼亚语语音研究的重要资源,该数据集最显著的特点是真实录音与合成数据的有机结合。真实语音部分包含2万余条经过人工验证的样本,合成数据则通过现代TTS技术实现声学特征的精准控制。数据集总时长达到145小时,其中合成数据占比78%但保持声学参数的均衡分布。每条数据均标注发音文本及说话者元信息,支持音素级到话语级的跨维度分析。独特的generated分划为语音合成系统的鲁棒性测试提供了理想基准。
使用方法
该数据集可通过HuggingFace生态系统实现便捷调用,标准化的音频-文本配对格式适配主流语音处理框架。使用datasets库加载时自动解析为包含音频波形、文本及元数据的结构化对象,支持流式读取以处理海量合成数据。建议将真实数据划分用于模型训练与验证,合成数据则适用于数据增强或对抗测试场景。数据加载接口兼容PyTorch和TensorFlow,其预定义的train-test-eval划分可直接用于语音识别、语音合成等任务的基准测试。
背景与挑战
背景概述
Hy-Generated-audio-data-with-cv20.0数据集是一个专注于亚美尼亚语语音数据的研究资源,由Common Voice 20.0亚美尼亚语数据集和合成音频数据共同构成。该数据集由Erik Mkrtchyan等人构建,旨在为语音识别和语音合成领域提供高质量的亚美尼亚语语音数据。数据集包含真实录音和通过F5-TTS模型生成的合成音频,总时长约145小时,覆盖了不同年龄、性别和说话者的语音特征。这一数据集的构建填补了亚美尼亚语语音数据资源的空白,为相关领域的研究和应用提供了重要支持。
当前挑战
Hy-Generated-audio-data-with-cv20.0数据集面临的挑战主要包括两方面:首先,亚美尼亚语作为一种资源较少的语言,其语音数据的收集和标注存在较大难度,尤其是在确保数据多样性和覆盖性方面;其次,合成音频的质量和自然度是关键挑战,尽管使用了F5-TTS模型进行生成,但仍需确保合成语音与真实语音在音质和语调上的一致性。此外,数据集的构建过程中还需解决数据平衡问题,确保不同年龄、性别和说话者的分布均匀,以提高模型的泛化能力。
常用场景
经典使用场景
在语音合成与识别领域,Hy-Generated音频数据集因其包含真实与合成亚美尼亚语音频的独特组合,成为研究人员验证模型鲁棒性的重要工具。该数据集特别适用于跨场景语音识别系统的训练与评估,其中生成的高质量合成语音能够有效扩充数据多样性,模拟不同年龄、性别的发音特征。
实际应用
在实际应用中,该数据集支撑了亚美尼亚语智能客服系统的开发,其合成语音模块显著降低了数据采集成本。教育科技领域利用该资源构建发音评估工具,通过对比真实与合成语音特征,为语言学习者提供精准的发音反馈。
衍生相关工作
基于该数据集衍生的经典研究包括跨语言语音合成迁移学习框架F5-TTS的优化,以及亚美尼亚语方言识别系统的开发。多项工作发表于INTERSPEECH等顶级会议,推动了生成式语音数据在低资源语言场景中的应用方法论创新。
以上内容由遇见数据集搜集并总结生成



