five

Hy-Generated-audio-data-with-cv20.0

收藏
Hugging Face2025-05-24 更新2025-05-25 收录
下载链接:
https://huggingface.co/datasets/ErikMkrtchyan/Hy-Generated-audio-data-with-cv20.0
下载链接
链接失效反馈
官方服务:
资源简介:
Hy-Generated数据集是一个包含真实和合成音频片段的Armenian语言语音数据集。它由训练集、测试集、验证集和生成集组成,其中训练集、测试集和验证集来自Common Voice 20.0 Armenian数据集,而生成集是通过细调F5-TTS模型生成的100,000个高质量语音片段,涵盖了404个均匀分布的合成声音。
创建时间:
2025-05-20
原始信息汇总

Hy-Generated Audio Data with CV20.0 数据集概述

数据集基本信息

  • 许可证: cc0-1.0
  • 语言: 亚美尼亚语 (hy)
  • 数据集名称: Hy-Generated
  • 总大小: 20,756,870,307.952 字节
  • 下载大小: 19,300,182,564 字节

数据集结构

特征

  • audio: 音频数据
  • text: 文本数据 (字符串)
  • age: 年龄信息 (字符串)
  • gender: 性别信息 (字符串)
  • client_id: 客户端ID (字符串)

数据分块

分块名称 样本数量 大小 (字节)
train 9,300 342,225,811.1
test 5,818 207,494,311.74
eval 5,856 199,669,352.112
generated 100,000 20,007,480,833

数据集内容

  • 真实音频数据: 来自 Common Voice 20.0 亚美尼亚语数据集的分块 (train, test, eval)
  • 生成音频数据: 100,000 条高质量音频,使用微调的 F5-TTS 模型合成,涵盖 404 种均衡分布的合成声音

数据集统计

分块 音频数量 时长 (小时)
train 9,300 13.53
test 5,818 9.16
eval 5,856 8.76
generated 100,000 113.61

总时长: 约 145 小时

加载方式

python from datasets import load_dataset

dataset = load_dataset("ErikMkrtchyan/Hy-Generated-audio-data-with-cv20.0")

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集整合了真实与合成的亚美尼亚语音频数据,其构建过程体现了多源数据融合的先进理念。原始数据来源于Common Voice 20.0项目的亚美尼亚语子集,经过严格筛选形成train、test和eval三个标准划分。创新性地通过F5-TTS文本转语音模型生成了10万条高质量合成语音,采用404种均衡分布的虚拟声纹特征,显著扩展了数据多样性。所有音频样本均配套包含文本转录及说话者年龄、性别等元数据,构建过程注重数据平衡性与技术可追溯性。
特点
作为亚美尼亚语语音研究的重要资源,该数据集最显著的特点是真实录音与合成数据的有机结合。真实语音部分包含2万余条经过人工验证的样本,合成数据则通过现代TTS技术实现声学特征的精准控制。数据集总时长达到145小时,其中合成数据占比78%但保持声学参数的均衡分布。每条数据均标注发音文本及说话者元信息,支持音素级到话语级的跨维度分析。独特的generated分划为语音合成系统的鲁棒性测试提供了理想基准。
使用方法
该数据集可通过HuggingFace生态系统实现便捷调用,标准化的音频-文本配对格式适配主流语音处理框架。使用datasets库加载时自动解析为包含音频波形、文本及元数据的结构化对象,支持流式读取以处理海量合成数据。建议将真实数据划分用于模型训练与验证,合成数据则适用于数据增强或对抗测试场景。数据加载接口兼容PyTorch和TensorFlow,其预定义的train-test-eval划分可直接用于语音识别、语音合成等任务的基准测试。
背景与挑战
背景概述
Hy-Generated-audio-data-with-cv20.0数据集是一个专注于亚美尼亚语语音数据的研究资源,由Common Voice 20.0亚美尼亚语数据集和合成音频数据共同构成。该数据集由Erik Mkrtchyan等人构建,旨在为语音识别和语音合成领域提供高质量的亚美尼亚语语音数据。数据集包含真实录音和通过F5-TTS模型生成的合成音频,总时长约145小时,覆盖了不同年龄、性别和说话者的语音特征。这一数据集的构建填补了亚美尼亚语语音数据资源的空白,为相关领域的研究和应用提供了重要支持。
当前挑战
Hy-Generated-audio-data-with-cv20.0数据集面临的挑战主要包括两方面:首先,亚美尼亚语作为一种资源较少的语言,其语音数据的收集和标注存在较大难度,尤其是在确保数据多样性和覆盖性方面;其次,合成音频的质量和自然度是关键挑战,尽管使用了F5-TTS模型进行生成,但仍需确保合成语音与真实语音在音质和语调上的一致性。此外,数据集的构建过程中还需解决数据平衡问题,确保不同年龄、性别和说话者的分布均匀,以提高模型的泛化能力。
常用场景
经典使用场景
在语音合成与识别领域,Hy-Generated音频数据集因其包含真实与合成亚美尼亚语音频的独特组合,成为研究人员验证模型鲁棒性的重要工具。该数据集特别适用于跨场景语音识别系统的训练与评估,其中生成的高质量合成语音能够有效扩充数据多样性,模拟不同年龄、性别的发音特征。
实际应用
在实际应用中,该数据集支撑了亚美尼亚语智能客服系统的开发,其合成语音模块显著降低了数据采集成本。教育科技领域利用该资源构建发音评估工具,通过对比真实与合成语音特征,为语言学习者提供精准的发音反馈。
衍生相关工作
基于该数据集衍生的经典研究包括跨语言语音合成迁移学习框架F5-TTS的优化,以及亚美尼亚语方言识别系统的开发。多项工作发表于INTERSPEECH等顶级会议,推动了生成式语音数据在低资源语言场景中的应用方法论创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作