ACV-001
收藏github2025-11-06 更新2025-11-07 收录
下载链接:
https://github.com/Archivoice/ACV-001
下载链接
链接失效反馈官方服务:
资源简介:
ACV-001是一个公共男性歌唱声音数据集,包含中文和英文歌曲。数据集采用ACV格式中文音素和arpabet英文标注,专为diffsinger多语言数据集准备设计。测试版(v0.1)包含21首中文歌曲(约56分钟50秒,含静音)和9首英文歌曲(约26分钟42秒,含静音)。数据集以16位44.1kHz WAV格式录制,采用HTK标签格式(.lab)标注,提供完整长度和分段两个版本。
ACV-001 is a public male singing voice dataset containing both Chinese and English songs. It adopts ACV format for Chinese phoneme annotations and ARPABET for English phoneme annotations, and is specifically designed for multilingual datasets of DiffSinger. Its beta version (v0.1) includes 21 Chinese songs (approximately 56 minutes and 50 seconds in total including silences) and 9 English songs (approximately 26 minutes and 42 seconds in total including silences). The dataset is recorded in 16-bit 44.1kHz WAV format, uses HTK label format (.lab) for annotations, and provides two variants: full-length and segmented.
创建时间:
2025-11-06
原始信息汇总
ACV-001 数据集概述
数据集基本信息
- 名称:ACV-001
- 类型:公共男性歌声数据集
- 状态:测试版本(v0.1)
- 发布日期:2025年11月6日
数据规格
- 音频格式:16位 44.1kHz WAV
- 标注格式:HTK标签格式(.lab)
- 音素标注:
- 中文:ACV格式中文音素
- 英文:ARPABET音素(带语言标签
en/)
数据集内容
中文部分
- 歌曲数量:21首
- 总时长:56分钟50秒(含静音)
- 纯中文时长:56分钟19秒(排除英文样本后)
英文部分
- 歌曲数量:9首
- 总时长:26分钟42秒(含静音)
- 语言说明:前几首包含韩语内容(样本en_001、en_002、en_005)
版本说明
- 完整长度版本:仅包含WAV和LAB文件
- 分段版本:包含DS文件、transcription.csv文件,支持DiffSinger使用
- DS文件内容:包含基频(f0)和连音(slur)数据
特殊标注说明
- 哼唱标注:完整版本中使用
M,分段版本中转换为m - 特殊音素:包含玩笑音素
mlem,用于标记呼吸开始时的口腔点击声
语言处理说明
如需仅训练中文模型(排除英文内容),需移除以下样本:
- 001_seg002(.wav/.lab/.ds)
- 001_seg011(.wav/.lab/.ds)
- 001_seg012(.wav/.lab/.ds)
- 001_seg018(.wav/.lab/.ds)
- 001_seg019(.wav/.lab/.ds) 或直接移除整个001样本
授权信息
- 版权所有者:Jonathan Huang 黃奕晨(ArchiVoice所有者)
- 许可证:CC BY-SA 4.0
- 许可证链接:https://creativecommons.org/licenses/by-sa/4.0/
搜集汇总
数据集介绍

构建方式
在语音数据集构建领域,ACV-001采用专业录音标准,以16位44.1kHz采样率的WAV格式收录男性演唱音频。数据集标注体系融合ACV格式中文音素与ARPAbet英文音标,特别针对DiffSinger多语言歌唱合成需求设计,每个样本均附带语言标签标识。数据组织提供完整版与分段版两种形态,完整版包含原始音频和标签文件,分段版则额外配备专用于歌唱合成的DS文件与转录文本表格,其中DS文件精确记录了基频信息和连音标记。
特点
该数据集最显著的特征在于其多语言混合标注架构,当前测试版本涵盖21首中文歌曲与9首英文歌曲,总时长约83分钟。标注系统展现出高度专业化的设计理念,创新性地引入特殊音素处理机制:将哼唱标记由'M'转换为'm'以避免与其它音素混淆,并独创性地设置'mlem'趣味音素来精准捕捉呼吸起始时的口腔点击声。数据集采用HTK标准标签格式,同时提供基频曲线和连音边界等深层声学参数,为歌唱合成研究提供丰富特征维度。
使用方法
针对不同研究需求,使用者可灵活选择数据处理策略。若需纯中文语音模型训练,只需移除包含英文内容的特定样本段即可实现语言隔离。数据集与DiffSinger框架深度适配,分段版本提供的transcription.csv文件可直接导入模型训练流程,DS文件内嵌的基频与连音数据能有效提升合成歌声的自然度。研究者还可依据HTK标签格式提取音素级时间边界信息,或利用完整版音频数据进行声学特征分析,为歌唱合成系统的开发与优化提供多维度支持。
背景与挑战
背景概述
ACV-001数据集作为2025年发布的专业男声歌唱语音资源,由ArchiVoice机构创始人黄奕晨主导构建,聚焦于多语言歌唱合成的核心研究需求。该数据集采用ACV格式中文音素与ARPAbet英文音标双标注体系,专为DiffSinger多语言歌声合成模型优化设计,涵盖21首中文歌曲与9首英文歌曲的完整语音标注,总时长约83分钟,填补了中文歌唱合成领域高质量标注数据的空白。
当前挑战
在歌唱合成领域,该数据集需解决跨语言音素对齐的技术难题,尤其面对中文声调与英文重音模式的混合标注挑战。数据构建过程中存在多语言样本的语义边界模糊问题,例如中英混杂段落的分割处理,以及特殊发声现象(如呼吸音、哼鸣)的标准化标注,需通过创新性音素标签(如'M'与'mlem')维持声学特征的一致性。
常用场景
经典使用场景
在语音合成技术领域,ACV-001数据集主要应用于多语言歌声合成系统的开发与优化。该数据集采用ACV格式中文音素和ARPAbet英文音素的双重标注体系,为DiffSinger等先进歌声合成模型提供了标准化的训练素材。研究人员可利用其精细标注的基频数据和连音信息,构建能够处理中英文混合演唱的智能声学模型,显著提升合成歌声的自然度与表现力。
解决学术问题
该数据集有效解决了跨语言歌声合成中的音素对齐与声学建模难题。通过提供精确标注的中英文双语演唱数据,研究者能够深入探索不同语言音系特征在声学空间的映射关系。其包含的完整基频轨迹和连音标记为声学模型训练提供了关键参数,助力解决传统方法在跨语言转换时出现的音色失真与韵律失调问题,推动多语言歌声合成技术的理论突破。
衍生相关工作
围绕ACV-001数据集已衍生出多项创新性研究,特别是在多语言歌声合成领域。基于该数据集开发的DiffSinger中文支持框架成为后续研究的重要基础,其音素标注规范被多个后续数据集采纳为标准。相关研究团队进一步探索了跨语言声学特征迁移、端到端多语言合成等方向,推动了开源歌声合成社区的协同发展,为后续更大规模多语言数据集的构建奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



