Sds-Korean-Singing-Dataset

github2026-05-13 更新2026-05-16 收录

下载链接：

https://github.com/SODAsoo07/Sds-Korean-Singing-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Sds-Korean-Singing-Dataset是一个公开的韩语母语者歌唱数据集合，包含多个数据条目，如Mechol-001（约30分钟业余青少年男性歌唱数据，包含音素级别标签）和SODAsoo-001-KR（22分钟40秒业余成年女性歌唱数据，音素级别标签暂未包含）。数据集适用于研究和个人爱好目的，商业使用需事先联系提供者，并禁止恶意用途。数据提供者不拥有歌曲本身的版权。

Sds-Korean-Singing-Dataset is a publicly available collection of singing data from native Korean speakers. It includes multiple data entries, such as Mechol-001 (approximately 30 minutes of amateur teenage male singing data with phoneme-level annotations) and SODAsoo-001-KR (22 minutes and 40 seconds of amateur adult female singing data without phoneme-level annotations at present). This dataset is intended for research and personal hobby purposes. Commercial use requires prior contact with the dataset provider, and malicious usage is strictly prohibited. The dataset provider does not hold the copyright of the songs themselves.

创建时间：

2026-05-12

原始信息汇总

数据集概述：Sds-Korean-Singing-Dataset

该数据集是一个面向韩语母语者的公开歌唱数据集合，主要用于研究或个人兴趣爱好（如SVS声库训练）。

核心构成

数据语言：韩语
数据来源：韩语母语者的公开歌唱录音

数据集条目

Mechol-001
- 内容：约30分钟，业余青少年男性歌唱数据
- 标注：包含音素级标注（sinsy lab格式）
- 提供者/管理者：Mechol
  ˗ 联系方式：https://github.com/geujang / Twitter(X) @Yh_evil
SODAsoo-001-KR
- 内容：22分40秒，业余成年女性歌唱数据
- 标注：不包含音素级标注（计划后续添加）
- 提供者/管理者：SODAsoo
  ˗ 联系方式：https://github.com/SODAsoo07 / Twitter(X) @SODAsodasoo / Discord sodasoo0060

许可与使用规范

允许用途：研究、个人兴趣爱好（如Diffsinger声库训练）
商业用途：必须事先联系数据提供者取得许可
使用要求：使用数据时需标注来源
禁止用途：仇恨言论、政治煽动、冒充、不适合公开的性内容等恶意目的
著作权说明：数据集中的歌曲版权不归提供者或管理者所有
音素标注规范：遵循 Team CODA 格式

注意事项

各数据的提供者/版权持有者不同，如有疑问请直接联系标注的联络方式

搜集汇总

数据集介绍

构建方式

Sds-Korean-Singing-Dataset 是一个面向韩语母语者的公开歌唱语音数据集，其构建过程以多源采集与精细标注为核心。数据集的样本来自多位不同的语音提供者，涵盖不同性别与年龄层，如包括一位业余青少年男性约30分钟的歌唱数据和一位业余成年女性约22分40秒的录音。部分数据已包含基于 Team CODA 格式的音素级标注（采用 sinsy lab 格式），另有部分标注待后续补充。所有数据均附有提供者及管理者的明确联络方式，确保可追溯性与合规性。

特点

该数据集的特点体现在其开放性与研究适用性上。数据来自真实韩语母语者的自然歌唱表现，非合成或模拟之声，具备较高的生态效度。音素标注遵循 Team CODA 格式，便于直接应用于如 DiffSinger 等语音合成系统的训练。数据使用授权清晰，允许用于研究或个人爱好目的（如构建声库），但禁止用于仇恨言论、政治煽动、冒充他人或不当性表达等恶意用途，充分保障伦理与使用边界。

使用方法

用户可自由将本数据集用于学术研究或个人项目，例如作为 DiffSinger 语音库的训练材料。使用时须明确标注数据集出处，并遵守禁止恶意使用的条款。对于商业用途，必须事先联系语音提供者及管理者获得授权。数据文件可通过 GitHub 仓库获取，其中标注文件以 sinsy lab 格式存储，可直接导入相关工具链。由于数据版权归属于提供者，用户对原始曲目本身不享有版权，且应基于常识合理使用数据。

背景与挑战

背景概述

Sds-Korean-Singing-Dataset 是一个面向韩语母语者公开歌唱语音的数据集，由多位研究者和语音提供者共同创建，包括 Mechol 和 SODAsoo 等个体贡献者。该数据集最早收录于 2023 年左右，旨在为韩语歌唱合成与语音研究提供高质量、多声线的语音资源。其核心研究问题聚焦于韩语语音学与歌唱韵律的建模，尤其是在非商业性语音合成工具（如 DiffSinger）中的应用。该数据集的出现填补了韩语歌唱语音数据的稀缺空白，对推动多语种歌唱合成、音素标注标准化以及个性化语音生成等领域具有显著意义，并已吸引了一批关注韩语语音技术的社区研究者。

当前挑战

该数据集所解决的领域问题在于韩语歌唱语音数据匮乏，导致多语种歌唱合成系统难以扩展至韩语，且缺乏精细化的音素标注与韵律模型。具体挑战包括：1) 构建过程中，数据来源为不同提供者的零散录音，需协调多种授权与使用协议，增加了版权管理的复杂性；2) 部分录音（如 SODAsoo-001-KR）尚未完成音素级标注，影响了模型训练的完整性与一致性；3) 数据样本以业余演唱者为主，存在演唱技巧、音准与录音环境差异，可能引入噪声并降低模型泛化能力；4) 恶意使用风险（如深伪、歧视性内容）需通过明确的许可协议加以约束，但执行难度较大。

常用场景

经典使用场景

Sds-Korean-Singing-Dataset 作为韩语母语者歌唱语音数据的精选集合，其经典使用场景聚焦于构建和训练韩语歌唱语音合成系统（SVS）。该数据集涵盖了业余青少年男性和成年女性歌手的真实演唱片段，提供了精细的音素级别标注（采用 Team CODA 格式），为基于深度学习的端到端歌唱合成模型（如 DiffSinger）提供了高质量的发音与音高对齐的监督信号。研究者可借此还原韩语歌唱中独特的连音、紧音及语调起伏，从而生成逼真且富有表现力的韩语歌声。

实际应用

在产业界，该数据集支撑着个性化韩语虚拟歌手与数字助理的歌声生成，如音乐教育软件中的实时演唱辅导、游戏角色动态配音以及短视频平台上用户自定义的韩语翻唱功能。开发者可基于采集的声学特征，训练出适应不同情感基调（如悲伤、激昂）的歌声模型，提升人机交互的沉浸感。此外，数据集对商业用途设定明确的授权门槛，确保了合规音频内容的二次开发，为 K-Pop 相关的数字内容创作产业链提供了低成本的声库定制方案。

衍生相关工作

围绕该数据集，衍生了一系列前沿工作。在模型层面，研究者将其应用于基于变分自编码器（VAE）的歌唱声学特征解耦，实现了音色与旋律的独立操控；在数据增强方向，基于该集上的预训练特征，衍生出无标注歌声对齐的弱监督学习框架，降低了新歌手的标注成本。此外，社区围绕该数据集构建了韩语 DiffSinger 语音银行的开源工具链，催生了跨语种歌声迁移与混合歌声合成（如韩中双语演唱）的探究，这些工作进一步反哺了韩语音乐科技生态的成长。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集