S2Cap

Name: S2Cap
Creator: POSTECH
Published: 2024-09-16 05:19:24
License: 暂无描述

arXiv2024-09-16 更新2024-09-18 收录

下载链接：

https://github.com/HJ-Ok/S2cap

下载链接

链接失效反馈

官方服务：

资源简介：

S2Cap是一个用于歌唱风格描述的音频-文本对数据集，由POSTECH和HJ AILAB创建。该数据集包含12,105个音乐音频样本和71,215个描述性文本，涵盖了音高、音量、节奏、情绪、歌手性别和年龄、音乐类型和情感表达等多种声乐和音乐属性。数据集的创建过程包括从Melon播放列表数据集和网络抓取中获取元数据，使用Demucs模型分离声乐部分，并通过Qwen2 Audio生成描述性文本。S2Cap数据集的应用领域主要是歌唱风格描述和语音生成，旨在解决现有数据集在音乐特征捕捉方面的不足。

S2Cap is an audio-text paired dataset dedicated to singing style description, developed by POSTECH and HJ AILAB. This dataset comprises 12,105 musical audio samples and 71,215 descriptive texts, covering a broad spectrum of vocal and musical attributes including pitch, volume, rhythm, emotion, singer's gender and age, music genre, and emotional expression. The development workflow of the S2Cap dataset includes collecting metadata from the Melon playlist dataset and web scraping, isolating vocal segments using the Demucs model, and generating descriptive texts via Qwen2 Audio. The primary application domains of the S2Cap dataset are singing style description and speech generation, with the goal of addressing the shortcomings of existing datasets in capturing musical features.

提供机构：

POSTECH

创建时间：

2024-09-16

原始信息汇总

S2cap 数据集概述

数据集名称

S2cap

数据集描述

S2cap 数据集用于构建歌唱风格描述数据集。该数据集包含歌唱风格的相关数据和生成提示。

数据集状态

数据集和生成提示已可用，但详细和重构后的代码将在 ICASSP 2025 评审后更新。

引用信息

使用该数据集时，请引用相关论文。

搜集汇总

数据集介绍

构建方式

S2Cap数据集的构建基于Melon播放列表数据集，通过网络爬虫获取额外的元数据，包括Last.fm标签和歌手的年龄、性别等信息。随后，从YouTube收集相应的音频文件，并使用Demucs模型分离人声部分。通过语音分割模型提取5-30秒的音频片段，并利用预训练的Qwen2 Audio生成描述文本，结合语言理解模型提取的音调、音量等特征，最终通过大型语言模型生成反映歌手风格的描述文本。

特点

S2Cap数据集包含丰富的声乐和音乐属性，如音调、音量、节奏、情绪、歌手性别和年龄、音乐类型和情感表达等，共计九个属性。这些详细的信息使得模型能够理解并生成多样化的歌唱风格描述，填补了现有语音数据集中音乐特征的缺失。

使用方法

S2Cap数据集可用于训练和评估歌唱风格描述生成模型。研究者可以利用该数据集训练音频编码器和文本解码器，通过CRESCENDO机制解决音频与文本嵌入空间的对齐问题，并结合人声分离监督技术提升模型对歌唱特征的捕捉能力。数据集的代码和音频文件可通过提供的GitHub链接获取。

背景与挑战

背景概述

近年来，随着语音生成技术的迅猛发展，歌唱语音合成与转换已成为语音生成领域的重要分支，对基于提示的生成技术提出了更高的要求。与普通语音数据不同，生成歌唱语音需要深入理解多种与歌唱相关的声乐和音乐特征，如歌手的音色或情感表达。然而，现有的开源音频-文本数据集往往仅捕捉到非常有限的属性，常常忽略了音频的音乐特征。为了填补这一空白，Hyunjong Ok和Jaeho Lee于2024年提出了S2Cap数据集，这是一个包含丰富属性的音频-文本对数据集，涵盖了音高、音量、节奏、情绪、歌手性别和年龄、音乐风格和情感表达等多种声乐和音乐属性。S2Cap的引入不仅为歌唱风格描述提供了新的基准，还为相关领域的研究提供了宝贵的资源。

当前挑战

S2Cap数据集在构建过程中面临多项挑战。首先，歌唱风格描述任务相较于标准语音描述更为复杂，因为它要求模型理解音频中的声乐和音乐特征，如歌手的音色或情感表达。其次，现有的语音描述基准数据集缺乏对这些详细属性的标注。此外，数据集的构建过程中，研究人员需要从Melon播放列表数据集中提取音频片段，并通过网络爬虫获取额外的元数据，如歌手的年龄和性别信息。为了确保数据集的质量和相关性，研究人员还采用了音频分离技术来分离人声部分，并使用预训练的语言模型生成描述文本。这些步骤不仅增加了数据集的复杂性，还对模型的性能提出了更高的要求。

常用场景

经典使用场景

在音乐生成与转换领域，S2Cap数据集的经典应用场景主要集中在歌唱风格描述的自动生成。该数据集通过丰富的音频与文本对，使研究者能够训练模型以捕捉歌唱声音中的多种声乐和音乐特性，如音调、音量、节奏、情感表达等。这种自动化的歌唱风格描述生成不仅有助于提升歌唱语音合成的质量，还能为音乐分析和创作提供有力的支持。

衍生相关工作

S2Cap数据集的推出催生了多项相关研究工作，特别是在歌唱风格描述和语音生成领域。例如，基于S2Cap的CRESCENDO方法通过正样本相似性学习，解决了音频编码器与文本解码器之间的嵌入空间对齐问题，显著提升了歌唱风格描述的生成质量。此外，S2Cap还启发了对歌唱语音生成任务的深入研究，推动了诸如歌唱语音转换和风格化语音合成等技术的进步。

数据集最近研究