ACEStep-Songs
收藏Hugging Face2025-08-21 更新2025-08-22 收录
下载链接:
https://huggingface.co/datasets/Yi3852/ACEStep-Songs
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含由ACE-Step生成的歌曲的数据集。数据集中的每首歌曲都有一个score_lyrics字段,表示GPT-4O对歌词的评分(1-10分,只保留评分大于等于8的,器乐作品为-1)。完整的数据集,包括歌词、标签和评分,可以在指定的HuggingFace链接中找到。
创建时间:
2025-08-20
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 语言: 英文、中文
- 标签: 音乐、艺术
- 数据规模: 10K到100K之间
数据内容
- 由ACE-Step模型生成的歌曲
score_lyrics字段表示GPT-4o对歌词的评分(1-10分,仅保留≥8分的样本),纯音乐作品标记为-1
相关资源
- 完整歌词-标签-评分数据集:https://huggingface.co/datasets/Yi3852/lyrics-tags_gen
- 更多信息:https://github.com/ace-step/ACE-Step/issues/313
引用信息
bibtex @misc{jiang2025advancingfoundationmodelmusic, title={Advancing the Foundation Model for Music Understanding}, author={Yi Jiang and Wei Wang and Xianwen Guo and Huiyun Liu and Hanrui Wang and Youri Xu and Haoqi Gu and Zhongqian Xie and Chuanjiang Luo}, year={2025}, eprint={2508.01178}, archivePrefix={arXiv}, primaryClass={cs.SD}, url={https://arxiv.org/abs/2508.01178}, }
搜集汇总
数据集介绍

构建方式
ACEStep-Songs数据集通过ACE-Step模型生成音乐作品,并采用GPT-4o对歌词质量进行自动化评分,仅保留评分不低于8分的高质量样本,同时标注器乐曲目以区分无歌词作品。数据来源于开源社区协作,结合人工筛选与模型生成的双重机制,确保内容多样性与艺术性。
特点
该数据集涵盖中英文双语音乐内容,包含歌词评分、乐器标签等多维度标注,规模介于数万至十万条之间。其突出特点在于融合生成式模型创作与大语言模型评估,既涵盖器乐片段也包含高质量歌词作品,为音乐理解与生成研究提供丰富且标准化的语料。
使用方法
研究者可借助该数据集训练或评估音乐生成模型,尤其适用于跨语言歌词创作与质量评估任务。通过解析score_lyrics字段可筛选高质量样本,结合标签系统实现细粒度音乐分类。数据集兼容HuggingFace生态,支持直接加载与分布式计算框架集成。
背景与挑战
背景概述
音乐信息检索领域在人工智能技术的推动下不断发展,对高质量音乐数据的需求日益增长。ACEStep-Songs数据集由ACE-Step团队于2025年创建,主要研究人员包括Yi Jiang等学者,其核心研究问题在于构建一个适用于音乐理解基础模型训练的大规模歌曲数据集。该数据集通过ACE-Step模型生成歌曲,并利用GPT-4o对歌词进行评分筛选,仅保留评分不低于8分的优质样本,旨在提升音乐生成与理解模型的性能,对音乐人工智能领域的发展具有重要推动作用。
当前挑战
ACEStep-Songs数据集解决的领域挑战主要涉及音乐生成与理解中高质量数据的稀缺性问题,特别是歌词与音乐匹配的语义一致性与创造性评估。构建过程中的挑战包括利用GPT-4o进行自动化歌词评分的可靠性保障,仅保留高分样本可能导致数据多样性受限,以及器乐曲目的标注处理(以-1标记)所带来的数据一致性维护问题。此外,多语言(中英文)数据的整合与质量控制也是该数据集构建的关键难点。
常用场景
经典使用场景
在音乐信息检索领域,ACEStep-Songs数据集为研究者提供了大规模高质量的音乐生成样本,特别适用于训练和评估音乐理解模型。该数据集通过ACE-Step模型生成的歌曲,结合歌词评分机制,为研究音乐结构与语义关联提供了丰富素材,常被用于探索自动音乐生成、歌词与旋律匹配等核心问题。
实际应用
在实际应用层面,ACEStep-Songs可作为智能音乐创作助手系统的训练数据,支持自动化歌词生成、音乐推荐等商业场景。音乐教育领域可借助该数据集开发智能辅教工具,而娱乐产业则能基于其构建个性化音乐生成平台,为用户提供定制化的音乐内容服务。
衍生相关工作
基于该数据集衍生的经典工作包括多模态音乐表征学习框架MusicLM的改进版本,以及结合对比学习的音乐-歌词对齐模型LyricSync。这些工作显著提升了音乐与文本跨模态理解的性能,推动了诸如音乐情感分析、风格迁移等新兴研究方向的发展。
以上内容由遇见数据集搜集并总结生成



