espnet/ace-opencpop-segments

Name: espnet/ace-opencpop-segments
Creator: espnet
Published: 2024-07-16 05:35:36
License: 暂无描述

Hugging Face2024-07-16 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/espnet/ace-opencpop-segments

下载链接

链接失效反馈

官方服务：

资源简介：

ACE-Opencpop数据集是一个用于文本到音频、音频到音频和自动语音识别任务的中文单语数据集。数据集包含音频、片段ID、转录、歌手、标签、节奏、音符MIDI、音符音素、音符歌词、音符开始时间、音符结束时间、音素、音素开始时间和音素结束时间等特征。数据集分为训练集、验证集和测试集，分别包含100510、50和5400个样本。数据集的总大小为46247029927字节，下载大小为43584609048字节。

提供机构：

espnet

原始信息汇总

数据集概述

基本信息

名称: ACE-Opencpop
语言: 中文
多语言性: 单语种
大小范围: 10万<n<100万

许可

许可证: CC-BY-NC-4.0

任务类别

文本到音频
音频到音频
自动语音识别

数据集特征

音频: 音频类型
segment_id: 字符串类型
transcription: 字符串类型
singer: 整数类型
label: 字符串类型
tempo: 整数类型
note_midi: 浮点数序列
note_phns: 字符串序列
note_lyrics: 字符串序列
note_start_times: 浮点数序列
note_end_times: 浮点数序列
phn: 字符串序列
phn_start_time: 浮点数序列
phn_end_time: 浮点数序列

数据集拆分

训练集:
- 示例数量: 100510
- 字节数: 44030141907.4
验证集:
- 示例数量: 50
- 字节数: 21471807
测试集:
- 示例数量: 5400
- 字节数: 2195416212.6

数据集大小

下载大小: 43584609048字节
数据集大小: 46247029927字节

配置信息

默认配置:
- 训练集路径: data/train-*
- 验证集路径: data/validation-*
- 测试集路径: data/test-*

搜集汇总

数据集介绍

构建方式

在歌唱语音合成领域，高质量标注数据的稀缺性长期制约着模型性能的提升。ACE-Opencpop数据集基于Opencpop开源歌唱数据集构建，通过先进的自动标注引擎（ACE）对原始音频进行精细化处理。该过程涉及自动语音识别、音符与音素边界检测、音高提取等多重技术，将每段歌唱音频切分为独立片段，并生成包括转录文本、歌手标识、音符序列、音素序列及时间戳在内的多层次标注信息，最终形成包含十万余样本的训练集及数千测试样本的结构化数据集。

特点

本数据集的核心特征在于其丰富且精细的多模态标注体系。它不仅提供了音频波形与对应的文本转录，更包含了音符级别的MIDI音高、歌词、音素序列及其精确的起止时间，以及整体的节奏信息。这种从音素到音符再到完整片段的层级化标注结构，为歌唱语音合成、歌声转换、自动语音识别等任务提供了前所未有的细粒度监督信号。数据规模达到十万级别，且划分为训练、验证与测试集，确保了研究的可复现性与模型评估的严谨性。

使用方法

研究者可利用该数据集推动多项音频相关任务的发展。对于歌唱语音合成，模型可学习从歌词、音符序列到歌唱音频的映射关系；在歌声转换任务中，精细的音符与音素标注有助于解耦歌手身份与歌唱内容；同时，其高质量的转录文本与时间对齐信息也为歌唱语音识别提供了训练资源。使用时可借助Hugging Face数据集库加载，通过指定‘train’、‘validation’或‘test’分割来获取相应的音频数据及其配套的丰富标注字段，直接服务于模型训练与评估流程。

背景与挑战

背景概述

在语音合成与音乐信息检索领域，高质量歌唱语音数据集的构建对于推动歌唱声音合成、自动歌词识别及旋律分析等任务至关重要。ACE-Opencpop数据集由Jiatong Shi等研究人员于2024年发布，隶属于ESPnet项目框架，旨在通过大规模、精细标注的中文歌唱语音片段，解决歌唱语音数据稀缺与标注粒度不足的核心研究问题。该数据集基于Opencpop资源扩展而成，涵盖了超过十万条语音样本，每条样本均附有音高、歌词、音素时序及节奏等多维度标注，显著提升了歌唱语音合成模型的自然度与表现力，为相关学术研究与工业应用提供了坚实的数据基础。

当前挑战

ACE-Opencpop数据集所针对的歌唱语音合成与识别任务面临多重挑战：歌唱语音在音高变化、情感表达及节奏复杂性上远超普通语音，要求模型具备精细的旋律建模与跨模态对齐能力；同时，数据集构建过程中需克服标注一致性与准确性的难题，尤其是在音素与音符级别的时序对齐上，人工标注易受主观判断影响，而自动标注工具又难以处理歌唱中的滑音、颤音等艺术性表现。此外，数据规模的扩展需平衡版权许可与多样性，确保在遵守CC-BY-NC-4.0协议下覆盖足够多的歌手与曲风，以增强模型的泛化性能。

常用场景

经典使用场景

在歌唱语音合成领域，ACE-Opencpop数据集为研究者提供了高质量的歌唱语音与精细标注的对应关系。该数据集通过包含音频片段、歌词、音高、节奏及音素级别的时序信息，成为训练端到端歌唱合成模型的理想资源。其经典使用场景在于构建基于深度学习的歌唱语音生成系统，模型能够学习从文本歌词到歌唱音频的复杂映射关系，实现自然流畅的歌唱表现。

衍生相关工作

围绕ACE-Opencpop数据集，已衍生出一系列经典的歌唱语音处理研究工作。这些工作主要集中在改进歌唱合成模型的架构，如引入更强大的序列到序列模型或扩散模型以提升生成质量；发展基于该数据集的歌声转换与音色克隆技术；以及利用其精细标注进行歌唱语音分析，如自动音高修正或演唱技巧评估。这些研究共同构成了当前歌唱语音合成领域的重要技术脉络。

数据集最近研究