LAPS-Diff Hindi SVS Dataset

Name: LAPS-Diff Hindi SVS Dataset
Creator: 印度理工学院孟买分校电子工程系
Published: 2025-07-07 21:09:36
License: 暂无描述

arXiv2025-07-07 更新2025-07-10 收录

下载链接：

https://shorturl.at/2uARh

下载链接

链接失效反馈

官方服务：

资源简介：

LAPS-Diff Hindi SVS 数据集是一个由印度理工学院孟买分校电子工程系的研究团队创建的，包含约一小时时长的宝莱坞风格印地语歌曲数据集。该数据集包含37首歌曲，每首歌曲均由一位男性歌手演唱，共被分割成397个唱段。数据集旨在解决低资源情况下捕捉声乐风格、特定风格音高变化和语言相关特征的问题，并支持低资源情境下的声乐合成研究。数据集采用与 Opencpop 数据集相同的音乐乐谱格式，包含文本形式的歌词内容、对应的音素序列、关联的音符、音符时长、音素时长和连音信息。该数据集是首个针对声乐合成任务构建的印度音乐数据集。

The LAPS-Diff Hindi SVS Dataset was developed by a research team from the Department of Electrical Engineering, Indian Institute of Technology Bombay. It is a curated dataset containing approximately one hour of Bollywood-style Hindi songs, consisting of 37 tracks all performed by a single male vocalist, with the full content segmented into 397 vocal segments. This dataset is designed to address the core challenges of capturing vocal styles, style-specific pitch contours and language-related features in low-resource scenarios, and supports vocal synthesis research conducted under such low-resource conditions. It adopts the same musical score format as the Opencpop dataset, including textual lyric content, corresponding phoneme sequences, associated musical notes, note durations, phoneme durations, and inter-phoneme connection information. This is the first Indian music dataset specifically constructed for vocal synthesis tasks.

提供机构：

印度理工学院孟买分校电子工程系

创建时间：

2025-07-07

搜集汇总

数据集介绍

构建方式

在印度音乐领域，Bollywood风格因其独特的旋律和节奏而广受欢迎。为了构建LAPS-Diff Hindi SVS数据集，研究团队精选了流行歌手Arijit Singh在2012至2020年间演唱的37首歌曲，总时长约1小时。通过商业工具分离人声后，利用自动静音检测（>500ms）将歌曲分割为歌词行或短语，并手动标注。随后，采用基于混合自动语音识别系统的强制对齐技术，在音素级别实现音频与文本的自动对齐。考虑到歌唱发音的特殊性，研究团队构建了包含替代发音的专用词典，并通过合并对齐音素获得音节边界。音高提取采用基于自相关的基频检测方法，以10毫秒为间隔，并对短暂的无声音段进行线性插值。每个音节被分配一个MIDI音符，对应于该音节段内量化后的F0值众数。对于超过200毫秒的音节，进一步分析其音高波动，并为发生MIDI音符变化的子段标记Slur标志。数据集采用与Opencpop数据集相同的音乐乐谱格式，包含文本歌词、对应音素序列、关联音符、音符时长、音素时长及Slur信息。

使用方法

该数据集专为支持LAPS-Diff模型的训练与评估设计，其使用方法体现多模态融合的先进理念。在模型训练阶段，数据集中的音乐乐谱通过IndicBERT和XPhoneBERT预训练模型分别提取单词级和音素级嵌入，与乐谱嵌入融合形成增强的内容表示。同时，风格编码器从梅尔频谱提取歌手声纹特征，JDCNet模型计算音高轮廓，二者通过风格损失和音高损失（含CCC线性相关因子）指导辅助解码器优化。在去噪器训练中，MERT和IndicWav2Vec模型提取的音乐特征与上下文嵌入作为条件先验，通过反向扩散过程提升声学特征生成质量。评估时采用客观指标（MCD、logF0 RMSE、V/UV准确率）和主观MOS测试，特别针对快慢不同演唱速率片段分析模型在谐波结构保持、音高连贯性等方面的表现。数据集的细分训练验证测试集（31:3:4歌曲比例）确保了模型开发的可靠性。

背景与挑战

背景概述

LAPS-Diff Hindi SVS Dataset是由印度理工学院孟买分校的Sandipan Dhar、Mayank Gupta和Preeti Rao等研究人员于2025年创建的，专注于印地语宝莱坞风格歌唱语音合成（Singing Voice Synthesis, SVS）任务。该数据集的构建旨在解决低资源语言环境下歌唱语音合成中的关键挑战，包括语言依赖的韵律风格、音高变化以及歌唱风格捕捉等问题。作为首个针对印度音乐的SVS数据集，其影响力不仅体现在填补了印地语歌唱数据资源的空白，还为多语言和文化特定场景下的语音合成研究提供了重要基础。

当前挑战

LAPS-Diff Hindi SVS Dataset面临的挑战主要体现在两个方面：领域问题挑战和构建过程挑战。在领域问题方面，该数据集需解决低资源语言环境下歌唱语音合成的核心难题，包括如何准确捕捉语言特定的韵律特征、音高变化模式以及歌唱风格的细微差异。在构建过程中，研究者需克服歌唱语音与普通语音的发音差异问题，例如元音时长变化和辅音尾音schwa化现象，同时还需解决音高提取和音乐符号对齐等技术难题。此外，数据规模受限（仅65分钟）进一步增加了模型学习歌唱动态特征的难度。

常用场景

经典使用场景

LAPS-Diff Hindi SVS数据集专为印度宝莱坞风格的印地语歌唱语音合成（SVS）任务而设计，其经典使用场景包括基于扩散模型的歌唱语音生成。该数据集通过融合语言感知嵌入和风格-韵律引导学习机制，显著提升了低资源条件下印地语歌唱语音合成的自然度和表现力。在音乐信息检索领域，该数据集为研究语言依赖的歌唱风格特征提供了重要实验平台。

解决学术问题

该数据集有效解决了低资源语言歌唱语音合成中的三个关键学术问题：通过预训练语言模型提取词级和音素级嵌入，改善了印地语歌词内容表征；引入风格编码器和音高提取模型，解决了歌唱风格和音高变化建模的难题；利用MERT和IndicWav2Vec模型提取音乐特征和上下文嵌入，优化了声学特征生成过程。这些创新显著提升了合成语音的自然度和表现力。

实际应用

在实际应用层面，该数据集为印度音乐产业提供了高质量的印地语歌唱语音合成解决方案，可广泛应用于音乐制作、影视配音和数字娱乐领域。其特别设计的风格编码机制能够准确捕捉宝莱坞音乐的独特韵律特征，为区域性音乐风格的数字化呈现提供了技术支撑。同时，该数据集也为多语言歌唱语音合成系统的开发奠定了基础。

数据集最近研究