Suno70k

Name: Suno70k
Creator: 中国科学院·自动化研究所; 中国科学院大学·人工智能学院; 中国科学院·软件研究所; 康斯坦茨大学; 国立成功大学
Published: 2026-02-23 23:42:38
License: 暂无描述

arXiv2026-02-23 更新2026-02-25 收录

下载链接：

https://github.com/lsfhuihuiff/SongEcho_ICLR2026

下载链接

链接失效反馈

官方服务：

资源简介：

Suno70k是由中国科学院团队构建的大规模开源AI歌曲数据集，包含7万条高质量音乐样本，配备增强标签与歌词注释。该数据集通过系统化采集和标注流程构建，旨在解决全曲生成领域缺乏开源高质量数据的问题，为覆盖歌曲生成、音乐风格迁移等研究提供基础支持。其多维度标注特性特别适用于需要旋律控制与歌词同步的生成任务，推动了AI音乐创作的边界扩展。

提供机构：

中国科学院·自动化研究所; 中国科学院大学·人工智能学院; 中国科学院·软件研究所; 康斯坦茨大学; 国立成功大学

创建时间：

2026-02-23

搜集汇总

数据集介绍

构建方式

在人工智能音乐生成领域，高质量、大规模且标注完备的歌曲数据集是推动模型发展的关键基础设施。为应对现有开源全曲目数据集的稀缺性，Suno70k数据集应运而生。其构建过程始于对Suno.ai音乐生成原始数据集的深度筛选与精炼，通过多阶段严谨的流程确保数据质量。首先，基于元数据对原始条目进行过滤，剔除信息不完整、重复或非英语歌词的样本，并排除纯器乐曲目及超过四分钟时长的音频，以适配主流生成模型的输入限制。随后，下载对应音频文件，并利用SongEval评估框架从整体连贯性、记忆度、演唱自然度、结构清晰度及音乐性五个维度进行质量评分，舍弃任一维度低于阈值的样本。最后，针对原始标签不完整的问题，采用Qwen2-audio模型为每首歌曲生成涵盖流派、人声类型、乐器及情绪等方面的增强标签，并与原始标签去重整合，形成每首歌最多20个标签的标准化标注。经过上述流程，最终构建了一个包含约69,469首高质量AI生成歌曲、总时长近3,000小时的数据集。

特点

Suno70k数据集在人工智能音乐研究领域展现出若干显著特点。其核心优势在于规模宏大且质量可控，通过系统的过滤与评估机制，确保了数据在音频质量与音乐美学上的一致性，为模型训练提供了可靠的基础。数据集标注的全面性与精细化是其另一大亮点，不仅包含原始的元数据与歌词，还通过先进的音频理解模型生成了多维度的增强标签，极大地丰富了歌曲的语义描述信息，有助于模型学习更细粒度的风格与内容关联。此外，数据集全部由AI生成，有效规避了使用受版权保护的真实音乐数据所带来的法律与伦理风险，为开源研究提供了安全的资源。这些特点共同使得Suno70k成为一个兼具规模、质量、丰富标注及合规性的宝贵资源，特别适用于覆盖歌曲生成、文本到歌曲合成等需要精确条件控制的研究任务。

使用方法

Suno70k数据集主要服务于基于条件生成的音乐人工智能模型训练与评估，尤其在覆盖歌曲生成任务中扮演着重要角色。研究人员可将该数据集作为训练语料，输入至如SongEcho这类框架中，模型通过学习歌曲的音频波形、对应歌词文本以及丰富的风格标签，建立从文本提示和原始人声旋律到全新人声与伴奏联合生成的映射关系。具体而言，在训练阶段，模型利用数据集中歌曲的旋律轮廓（通常通过音高提取器获得）、歌词以及增强标签作为条件信号，学习在保持源旋律结构的同时，根据文本指导进行全局风格迁移。在评估阶段，该数据集的测试集可用于量化衡量生成歌曲在旋律保真度、与文本提示的一致性、音频质量等多个维度的性能。此外，其高质量的标注也为研究歌词-旋律对齐、多模态音乐理解等子任务提供了便利。通过提供标准化的数据划分与评估协议，Suno70k有助于在可控音乐生成领域进行公平、可复现的算法比较与性能基准测试。

背景与挑战

背景概述

Suno70k数据集由中国科学院自动化研究所、中国科学院大学等机构的研究团队于2026年构建，旨在应对人工智能音乐生成领域中高质量、大规模开源全歌曲数据稀缺的挑战。该数据集源自Suno.ai音乐生成平台，经过严格的过滤与质量评估流程，最终收录了约7万首AI生成的歌曲，总时长近3000小时，并配备了增强的标签与歌词注释。其核心研究问题在于为覆盖歌曲生成等复杂音乐AI任务提供丰富、可靠的训练资源，推动旋律控制、歌词同步及伴奏生成等关键技术发展，对音乐信息检索与生成式人工智能领域具有重要支撑作用。

当前挑战

Suno70k数据集致力于解决覆盖歌曲生成这一新兴领域的核心挑战，即在保持原曲人声旋律轮廓的同时，根据文本提示同步生成新颖的人声与和谐伴奏，实现全局风格迁移。这一任务需克服旋律与歌词的时序对齐、人声与伴奏的协同生成以及音频质量的保持等多重难题。在数据集构建过程中，研究者面临数据稀缺与版权限制，原始AI生成歌曲质量参差不齐，需通过多级过滤、质量评估与增强标注来确保数据的一致性与可用性；同时，数据清洗需处理缺失信息、非英语歌词及过长音频等问题，以适配生成模型的输入要求。

常用场景

经典使用场景

在音乐信息检索与生成领域，Suno70k数据集作为高质量、大规模的开源AI歌曲数据集，其最经典的使用场景是作为训练和评估覆盖歌曲生成模型的基准数据源。该数据集通过严格的筛选与标注流程，提供了包含完整歌词、丰富标签及高质量音频的歌曲样本，使得研究者能够在保留原始人声旋律轮廓的前提下，探索基于文本提示的全局风格迁移与伴奏生成。这一场景不仅推动了可控音乐生成技术的发展，也为研究旋律与歌词的时序对齐、人声与伴奏的协同合成等核心问题提供了可靠的数据支撑。

衍生相关工作

Suno70k数据集的发布催生并支撑了一系列围绕覆盖歌曲生成与可控音乐合成的经典研究工作。以SongEcho框架为代表，其提出的实例自适应逐元素线性调制（IA-EiLM）方法直接在数据集上验证了性能优势。后续研究在此基础上，进一步探索了基于该数据集的零样本风格迁移、跨语言歌词适配以及多轨道分离生成等延伸方向。同时，数据集也被用于评估如MuseControlLite、SA ControlNet等多种旋律控制方法的泛化能力，促进了不同条件注入机制（如交叉注意力、逐元素加法）的比较与优化。这些衍生工作共同推动了音乐生成领域从无条件创作向精细化、结构化控制的范式转变。

数据集最近研究