five

GlobalDISCO

收藏
arXiv2025-10-02 更新2025-10-04 收录
下载链接:
https://huggingface.co/datasets/disco-eth/GlobalDISCO
下载链接
链接失效反馈
官方服务:
资源简介:
GlobalDISCO是一个大规模的生成音乐数据集,包含来自世界各地的音乐传统,旨在探索音乐生成模型中的潜在偏见,并解决生成音乐领域缺乏大型、多文化和多语言数据集的问题。该数据集由来自79个国家的9.3万首真实音乐和73万首生成音乐组成,涵盖了147种语言和991种音乐风格。音乐曲目是由四种最先进的商业音乐生成模型生成的,包括Udio、Suno、Mureka和Riffusion。数据集的构建过程涉及从MusicBrainz和Wikipedia收集艺术家信息,匹配LAION-DISCO-12M中的参考曲目,并根据这些信息构建艺术家档案。音乐风格描述和合成歌词是根据艺术家档案生成的,然后使用音乐生成模型生成音乐。该数据集被设计用于评估音乐生成模型在地理区域和音乐风格上的偏差和多样性,并支持研究界在音乐生成中识别和解决偏见,促进未来模型开发中的更大全球多样性。

GlobalDISCO is a large-scale generative music dataset encompassing musical traditions from across the globe, designed to explore latent biases in music generation models and address the shortage of large-scale, multi-cultural and multi-lingual datasets in the music generation field. The dataset comprises 93,000 authentic music tracks and 730,000 generated music tracks originating from 79 countries, covering 147 languages and 991 musical genres. The musical tracks were generated by four state-of-the-art commercial music generation models, namely Udio, Suno, Mureka and Riffusion. The dataset construction pipeline involves collecting artist information from MusicBrainz and Wikipedia, matching reference tracks within the LAION-DISCO-12M dataset, and building artist profiles based on the collected data. Musical style descriptions and synthetic lyrics are generated based on the artist profiles, which are then used to produce music via the aforementioned models. This dataset is designed to evaluate the biases and diversity of music generation models across geographic regions and musical styles, support the research community in identifying and mitigating biases in music generation, and foster greater global diversity in future model development.
提供机构:
ETH Zurich
创建时间:
2025-10-02
搜集汇总
数据集介绍
main_image_url
构建方式
在音乐生成模型快速发展的背景下,GlobalDISCO通过系统化数据采集与生成流程构建而成。研究团队首先从MusicBrainz平台获取包含地理信息的艺术家档案,结合维基百科补充传记资料,形成包含国家、流派、乐器等元数据的完整艺术家画像。随后利用LAION-DISCO-12M数据集匹配参考音轨,通过Gemini大模型生成音乐风格描述与合成歌词。最终采用Suno、Udio等四种前沿商业音乐生成模型,基于统一提示词框架生成覆盖79个国家、147种语言的7.3万条音乐样本,构建起全球平衡的音乐生成数据集。
特点
该数据集最显著的特征在于其前所未有的文化多样性。涵盖五大洲79个国家的音乐传统,包含991种音乐流派与147种语言歌词,突破了现有数据集以英语为主的局限。通过设置国家级别艺术家数量上限的平衡策略,确保了高资源与低资源地区的均衡表征。数据集同时提供9.3万条真实音轨作为参考基准,并集成PANNs、CLAP等多模态音频嵌入模型,为跨文化音乐质量评估建立了系统化度量体系。这种设计使得数据集能够有效揭示音乐生成模型在不同文化语境中的表现差异。
使用方法
作为评估音乐生成模型文化偏差的重要工具,该数据集支持多维度分析方法。研究者可通过计算生成音轨与参考音轨的Fréchet音频距离和核音频距离,量化模型在不同地理区域和音乐流派中的分布对齐程度。嵌入模型提供的特征空间支持相似性分析和最近邻检索,便于识别生成内容与主流音乐的趋同现象。数据集配套的艺术家元数据与风格标签体系,允许进行细粒度的跨文化对比研究,为改进音乐生成模型的包容性提供实证基础。
背景与挑战
背景概述
随着人工智能生成音乐的迅猛发展,音乐生成模型在质量和性能上取得了显著突破,然而跨文化、跨语言的音乐多样性研究仍处于探索不足的状态。GlobalDISCO数据集由苏黎世联邦理工学院研究团队于2025年创建,旨在填补全球音乐多样性评估资源的空白。该数据集整合了来自79个国家、147种语言的音乐样本,通过四大商业音乐生成模型构建了7.3万条生成音轨与9.3万条参考音轨的配对数据。其核心研究聚焦于揭示音乐生成模型在地理区域、文化语境和音乐流派中存在的系统性偏见,为促进人工智能在音乐创作领域的公平性与包容性提供了关键实证基础。
当前挑战
GlobalDISCO所应对的领域挑战主要体现为音乐生成模型在低资源地区与区域性流派中的表现失衡。评估数据显示,模型对非洲、南亚等地区的音乐生成质量显著低于北美等高资源区域,且在安纳托利亚摇滚、苏库斯等地域特色流派中易偏离原始风格分布。构建过程中的挑战则源于多源数据整合的复杂性:需从MusicBrainz与维基百科中提取跨文化艺术家元数据,通过语义匹配关联LAION-DISCO-12M参考音轨,并运用大语言模型生成符合文化特性的风格描述与合成歌词,这一流程对多语言数据处理与文化表征准确性提出了极高要求。
常用场景
经典使用场景
在音乐生成模型评估领域,GlobalDISCO数据集被广泛应用于检测模型在不同文化背景下的表现差异。研究者通过该数据集涵盖的147种语言和79个国家的音乐样本,系统分析生成模型对高资源与低资源地区音乐风格的适应能力。数据集提供的73,792条生成音轨与92,859条参考音轨的配对结构,为跨文化音乐质量评估建立了标准化基准。
解决学术问题
该数据集有效解决了音乐生成研究中文化偏见量化困难的学术挑战。通过Fréchet音频距离和核音频距离等客观指标,揭示了模型在非洲、南亚等低资源地区生成的音乐与真实分布存在显著偏离。这种系统性偏差的量化,为改进模型的多文化适应性提供了实证基础,推动了生成式人工智能在音乐领域的公平性研究。
衍生相关工作
该数据集催生了多项关于音乐生成公平性的重要研究,包括跨文化音乐质量评估框架的建立与多语言歌词生成技术的改进。基于GlobalDISCO的实证分析,研究者开发了针对区域性音乐风格的微调策略,并提出了消除主流风格偏见的模型优化方法。这些衍生工作共同构成了音乐生成伦理研究的新范式,为后续 multicultural music generation 研究奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作