five

Datasets of MusicBrainz, Tidal, Spotify

收藏
github2025-06-07 更新2025-06-09 收录
下载链接:
https://github.com/MusicMoveArr/Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
这些数据集包含来自MusicBrainz、Tidal和Spotify的原始数据,未经过任何修改。MusicBrainz数据集包含约20GB的Postgres数据,270GB的JSON格式数据,涵盖250万艺术家、480万专辑和4900万曲目。Spotify数据集约1GB,包含64,000艺术家、196,000专辑和110万曲目。Tidal数据集约3GB,包含118,000艺术家、403,000专辑和250万曲目。

These datasets contain raw data sourced from MusicBrainz, Tidal, and Spotify, with no modifications made. The MusicBrainz dataset includes approximately 20GB of Postgres data, 270GB of JSON-formatted data, covering 2.5 million artists, 4.8 million albums, and 49 million tracks. The Spotify dataset is approximately 1GB, containing 64,000 artists, 196,000 albums, and 1.1 million tracks. The Tidal dataset is approximately 3GB, with 118,000 artists, 403,000 albums, and 2.5 million tracks.
创建时间:
2025-06-07
原始信息汇总

数据集概述

基本信息

  • 数据集来源:MusicBrainz、Tidal、Spotify
  • 数据集特点:未经修改,直接从源获取
  • 用途:可用于MiniMedia的数据库,节省API调用时间
  • 数据量
    • 打包后:4.5GB
    • 解压后:44.6GB

数据集详情

MusicBrainz

  • 官方下载地址:https://metabrainz.org/datasets/postgres-dumps#musicbrainz
  • 数据量
    • 总大小:~20GB(Postgres格式),官方提供270GB(json格式)
    • 艺术家:250万
    • 专辑:480万
    • 曲目:4900万

Spotify

  • 数据量
    • 总大小:~1GB(Postgres格式)
    • 艺术家:6.4万
    • 专辑:19.6万
    • 曲目:110万
  • 数据获取限制
    • API调用频率限制:每10秒一次
    • 每日最多获取约500位艺术家数据

Tidal

  • 数据量
    • 总大小:~3GB(Postgres格式)
    • 艺术家:11.8万
    • 专辑:40.3万
    • 曲目:250万
  • 数据获取限制
    • API调用频率限制:约每15分钟200次

常见问题

  • Spotify数据集较小的原因
    • API调用频率限制严格
    • 数据集不完整
  • Tidal数据集较小的原因
    • API调用频率限制较宽松但仍有限制
    • 数据集不完整
搜集汇总
数据集介绍
main_image_url
构建方式
在音乐信息检索领域,该数据集通过异构数据源的系统整合构建而成。MusicBrainz部分源自官方发布的PostgreSQL数据库转储文件,经过空间优化处理;Tidal和Spotify数据则通过持续数月不间断调用官方API获取,其中Spotify受限于严格的速率限制(每10秒单次调用),Tidal则遵循每15分钟200次调用的限制策略,这种差异化的采集方式导致各平台数据完整度存在显著差异。
特点
该数据集呈现多平台音乐元数据的鲜明特征,MusicBrainz作为核心数据源提供270GB原始JSON格式的全面音乐档案,包含4900万曲目记录;商业平台方面,Spotify受采集限制仅涵盖110万曲目,Tidal则相对完整收录250万曲目。数据集采用PostgreSQL存储方案,原始打包体积4.5GB,解压后扩展至44.6GB,在保持数据丰富性的同时实现了存储效率的优化。
使用方法
该数据集特别适用于音乐推荐系统开发与跨平台音乐数据分析,用户可直接将提供的表结构导入MiniMedia数据库系统,显著降低API调用开销。对于研究用途,建议优先使用MusicBrainz的完整元数据,而Tidal和Spotify数据更适合商业流媒体平台的特定分析。使用时需注意各子集的数据完整度差异,Spotify因API限制仅包含部分艺术家信息,需结合研究目的进行数据筛选。
背景与挑战
背景概述
Datasets of MusicBrainz, Tidal, Spotify是由独立研究者通过公开API和官方数据集构建的音乐信息数据库,涵盖了三大主流音乐平台的元数据。MusicBrainz作为开放音乐百科全书,其数据集由MetaBrainz基金会维护,包含超过250万艺术家和4900万曲目的详尽信息。Tidal和Spotify数据集则通过持续数月不间断调用平台API获取,尽管规模相对有限,但仍分别收录了11.8万和6.4万艺术家的完整资料。这些数据集为音乐信息检索、推荐系统研究提供了宝贵的基准资源,尤其解决了学术界获取商业音乐平台结构化数据的难题。
当前挑战
该数据集构建面临双重挑战:在领域问题层面,商业音乐平台的元数据获取始终存在封闭性壁垒,研究者需应对各平台差异化的版权政策和数据开放程度;在技术实现层面,Spotify严格的API速率限制(每10秒单次调用)导致日均仅能获取约500位艺术家数据,Tidal虽然允许每15分钟200次调用,但完整数据采集仍需要数月时间。MusicBrainz的原始JSON格式数据达270GB,如何高效压缩存储并保持数据完整性亦构成显著技术障碍。
常用场景
经典使用场景
在音乐信息检索领域,MusicBrainz、Tidal和Spotify数据集为研究者提供了丰富的元数据资源。这些数据集常被用于音乐推荐系统的开发,通过分析艺术家、专辑和曲目之间的关系,构建个性化的推荐模型。音乐分类和流派识别也是经典应用场景,利用数据集中的元数据训练机器学习算法,实现对音乐内容的自动分类。
解决学术问题
这些数据集有效解决了音乐信息学中数据稀缺的问题,为学术研究提供了大规模的真实世界数据。研究者可以利用它们探索音乐产业的生态结构,分析不同平台间的数据差异。数据集还支持音乐版权研究,通过对比不同平台的元数据,揭示版权信息管理的现状与挑战。
衍生相关工作
基于这些数据集,学术界产生了多项重要研究成果。其中包括音乐推荐系统的比较研究,探讨不同算法在跨平台数据上的表现。另有工作专注于音乐元数据的标准化研究,提出跨平台数据整合的解决方案。最近的研究则开始关注这些数据集在音乐生成领域的应用,探索AI创作的可能性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作