five

JAME

收藏
Hugging Face2025-08-01 更新2025-08-02 收录
下载链接:
https://huggingface.co/datasets/declare-lab/JAME
下载链接
链接失效反馈
官方服务:
资源简介:
JAME数据集是一个包含250首高质量音乐曲目的全面音乐数据集,设计用于标准化评估歌曲生成模型。该数据集包含五种风格(嘻哈/说唱、摇滚/金属、电子/舞曲、R&B/灵魂/爵士、乡村/民谣)的曲目,每首曲目约230秒,均匀分布。数据集包含详细的元数据、转录数据和结构分析数据,可通过Spotify和YouTube Music链接合法访问音频内容。
提供机构:
Deep Cognition and Language Research (DeCLaRe) Lab
创建时间:
2025-08-01
原始信息汇总

JAME数据集概述

基本描述

  • 名称: JAME (JAM Evaluation)
  • 开发者: DeCLaRe Lab
  • 所属项目: Project Jamify
  • 用途: 歌曲生成模型的标准化评估基准

数据集内容

  • 总曲目数: 250首高质量音乐曲目
  • 曲目时长: 每首约230秒
  • 总时长: ~15.3小时
  • 发行时间: 精选2025年5月1日后发布的曲目

音乐流派分布

  • Hip-Hop/Rap: 50首
  • Rock/Metal: 50首
  • Electronic/Dance: 50首
  • R&B/Soul/Jazz: 50首
  • Country/Folk: 50首

数据集结构

jame/ ├── README.md ├── metadata.jsonl ├── spotify_urls.txt ├── transcriptions/ │ ├── Artist - Title.json │ └── ... └── struct/ ├── Artist - Title.json └── ...

元数据格式

json { "file_name": "Artist - Title", "artist": "Artist Name", "title": "Song Title", "spotify_url": "https://open.spotify.com/track/...", "youtube_url": "https://music.youtube.com/watch?v=...", "duration": 180, "year": 2025, "genre": "Hip-Hop/Rap", "transcription_path": "transcriptions/Artist - Title.json", "struct_path": "struct/Artist - Title.json", "song_id": "spotify_track_id" }

音频访问方式

  • Spotify: 通过提供的spotify_url链接
  • YouTube Music: 通过提供的youtube_url链接
  • 合法流媒体服务: 通过艺术家和标题信息搜索

评估指标

  • PER
  • WER
  • SongEval
  • Audio Aesthetics
  • MuQ
  • FAD

许可信息

  • 许可证类型: Project Jamify License
  • 使用限制: 仅限非商业、学术和娱乐用途
  • 关键限制:
    • 禁止商业用途
    • 必须引用JAM论文
    • 需遵守适用的法律和道德标准

引用格式

bibtex @misc{liu2025jamtinyflowbasedsong, title={JAM: A Tiny Flow-based Song Generator with Fine-grained Controllability and Aesthetic Alignment}, author={Renhang Liu and Chia-Yu Hung and Navonil Majumder and Taylor Gautreaux and Amir Ali Bagherzadeh and Chuan Li and Dorien Herremans and Soujanya Poria}, year={2025}, eprint={2507.20880}, archivePrefix={arXiv}, primaryClass={cs.SD}, url={https://arxiv.org/abs/2507.20880}, }

联系方式

  • GitHub: https://github.com/declare-lab/jamify
  • 项目网站: https://declare-lab.github.io/jamify
  • 论文链接: https://arxiv.org/abs/2507.20880
搜集汇总
数据集介绍
main_image_url
构建方式
在音乐生成模型的标准化评估需求日益增长的背景下,JAME数据集应运而生。该数据集由DeCLaRe Lab精心构建,包含250首高质量音乐曲目,涵盖五种主流音乐流派,每种流派各50首曲目。数据采集严格遵循版权规范,仅收录2025年5月1日后发布的曲目以避免数据污染。每首曲目均配备完整的元数据信息,包括艺术家、曲名、流媒体链接等,并通过JSON格式的结构化文件提供详细的转录和音乐结构分析。
特点
作为歌曲生成模型的标准化评估基准,JAME数据集展现出鲜明的专业特性。其曲目平均时长230秒,总时长约15.3小时,确保评估的充分性。数据集覆盖Hip-Hop/Rap、Rock/Metal等五大音乐流派,具有均衡的流派分布。每首曲目不仅包含基础元数据,还提供Spotify和YouTube Music的合法访问链接,以及专业的音乐转录和结构分析文件,为模型评估提供多维度参考标准。
使用方法
研究者可通过HuggingFace平台便捷获取JAME数据集。使用前需仔细阅读项目许可协议,确保符合非商业用途要求。数据集评估需结合PER、WER等专业音频指标,通过metadata.jsonl文件可快速定位目标曲目。音频内容需通过官方流媒体链接获取,转录和结构分析文件则为深入评估提供技术支持。为保障研究合规性,建议在使用时完整引用原始论文,并遵守各流媒体平台的服务条款。
背景与挑战
背景概述
JAME数据集由DeCLaRe Lab于2025年推出,作为Project Jamify的重要组成部分,旨在为音乐生成领域提供标准化的评估基准。该数据集包含250首高质量音乐曲目,覆盖Hip-Hop/Rap、Rock/Metal、Electronic/Dance、R&B/Soul/Jazz、Country/Folk五种音乐流派,每流派50首。其核心研究问题聚焦于可控音乐生成模型的性能评估,通过精细的元数据标注和结构分析,为研究者提供了丰富的评估维度。JAME数据集的发布填补了音乐生成领域标准化评估工具的空白,对推动可控音乐生成技术的发展具有重要意义。
当前挑战
JAME数据集面临的挑战主要体现在两方面:领域问题方面,音乐生成模型的评估需兼顾旋律、节奏、和声等多维度的美学标准,而现有评估指标如PER、WER等难以全面捕捉音乐的艺术性;构建过程方面,数据集需确保音乐版权合规性,所有曲目通过Spotify和YouTube Music等合法渠道获取,且发布时间限定在2025年5月后以避免数据污染,这极大增加了数据采集和标注的复杂度。此外,跨流派音乐的结构化标注需要专业音乐知识,对标注团队提出了极高要求。
常用场景
经典使用场景
在音乐信息检索与生成领域,JAME数据集以其精心标注的250首多流派音乐曲目,成为评估歌词到歌曲生成模型的黄金标准。研究者通过其细粒度的结构分析和转录数据,能够精准测试模型在旋律匹配、节奏控制和风格一致性等方面的表现,特别是在跨流派音乐生成任务中展现了独特价值。
解决学术问题
该数据集有效解决了音乐生成领域缺乏标准化评估基准的难题,其多维度指标(PER、WER、SongEval等)为量化生成音乐的美学质量与结构完整性提供了科学框架。通过覆盖5种主流音乐流派的均衡样本,显著提升了跨风格生成研究的可比性与可重复性,推动了基于流匹配和直接偏好优化的新型算法发展。
衍生相关工作
基于JAME的评估框架,学界已涌现出多项突破性研究,包括《Flow-based Controllable Music Synthesis》等顶会论文。其数据标注标准更被MusicBERT等预训练模型采纳为微调基准,衍生出针对说唱节奏建模和爵士即兴生成的特化分支,持续推动可控音乐生成领域的技术边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作