LAION-DISCO-12M
收藏Hugging Face2024-11-14 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/laion/LAION-DISCO-12M
下载链接
链接失效反馈资源简介:
非盈利组织LAION又开源了一个新的数据集:LAION-DISCO-12M,这个数据集包含12M个公开可用的YouTube上的音乐样本,是目前最大的公开可用的音乐开放数据集。这些样本与元数据配对,以支持基础模型中通用音频、音乐信息检索和音频数据集分析等研究。同时,LAION团队为12,648,485首歌曲收集了元数据,包括歌曲名称、艺术家名称和专辑名称。
Non-profit organization LAION has open-sourced a new dataset: LAION-DISCO-12M. This dataset comprises 12 million publicly available music samples sourced from YouTube, and stands as the largest publicly available open music dataset to date. The samples are paired with corresponding metadata to support research on general audio, music information retrieval, and audio dataset analysis for foundation models. Furthermore, the LAION team has collected metadata for 12,648,485 songs, including the song title, artist name, and album name.
提供机构:
LAION eV
创建时间:
2024-11-14
搜集汇总
数据集介绍

构建方式
LAION-DISCO-12M数据集的构建过程始于一个艺术家种子列表,通过递归探索YouTube Music中‘粉丝可能还喜欢’部分列出的相关艺术家,逐步扩展艺术家图谱。初始种子列表包含45,218位艺术家,这些艺术家选自YouTube Music的国家和流派排行榜。通过这一方法,数据集最终涵盖了250,516位艺术家和12,648,485首歌曲。每首歌曲或音乐视频均关联一个YouTube URL,并提取了包括歌曲ID、标题、艺术家名称、专辑名称、是否包含明确内容、播放量和时长等元数据。
特点
LAION-DISCO-12M数据集以其规模庞大和多样性著称,包含了超过1200万条音乐链接,覆盖了广泛的音乐流派和艺术家。数据集中的每首歌曲均附有详细的元数据,如艺术家信息、专辑信息、播放量和时长等,为音乐信息检索和分析提供了丰富的基础。此外,数据集通过递归探索艺术家图谱,确保了艺术家和歌曲的广泛覆盖,使其成为音乐推荐系统和音乐信息学研究的重要资源。
使用方法
LAION-DISCO-12M数据集适用于多种音乐相关的研究和应用场景,如音乐推荐系统、音乐信息检索和艺术家网络分析。用户可以通过数据集中的YouTube URL直接访问音乐视频,利用附带的元数据进行深度分析。数据集的结构化格式便于使用机器学习算法进行特征提取和模型训练,特别适合用于训练和评估音乐分类、推荐和生成模型。此外,数据集的使用者应遵循Apache 2.0许可证的规定,并在相关研究中引用DISCO-10M的原始文献。
背景与挑战
背景概述
LAION-DISCO-12M数据集是一个包含1200万条YouTube音乐链接的大规模数据集,其构建灵感来源于DISCO-10M的方法论。该数据集由LAION团队于2023年发布,旨在通过递归探索艺术家之间的关联关系,构建一个涵盖广泛音乐风格和艺术家的音乐图谱。数据集的构建始于一个初始艺术家种子列表,通过分析YouTube Music中的‘Fans might also like’部分,逐步扩展艺术家网络。每个艺术家及其歌曲的元数据,包括歌曲ID、标题、艺术家名称、专辑信息、播放次数等,均被详细记录。这一数据集为音乐推荐系统、音乐信息检索以及音乐风格分析等领域提供了丰富的研究资源。
当前挑战
LAION-DISCO-12M数据集在构建过程中面临多重挑战。首先,初始种子列表的规模直接影响艺术家网络的扩展广度,DISCO-10M的18个艺术家种子列表仅能发现约9万艺术家和540万首歌曲,难以覆盖YouTube Music的多样性。为此,LAION团队通过整合各国和流派的音乐排行榜数据,将种子列表扩展至4.5万艺术家,最终发现了25万艺术家和1260万首歌曲。其次,数据采集过程中需要处理大量动态变化的元数据,如艺术家信息、歌曲播放次数等,这对数据的一致性和实时性提出了较高要求。此外,如何确保数据集的版权合规性以及处理YouTube链接的有效性,也是构建过程中不可忽视的技术难题。
常用场景
经典使用场景
LAION-DISCO-12M数据集在音乐信息检索和推荐系统领域具有广泛的应用。研究人员利用该数据集中的歌曲、艺术家和专辑信息,构建复杂的音乐推荐算法,通过分析用户的听歌历史和偏好,提供个性化的音乐推荐服务。此外,该数据集还用于音乐流派分类和情感分析,帮助理解不同音乐风格对听众情感的影响。
实际应用
在实际应用中,LAION-DISCO-12M数据集被广泛应用于音乐流媒体平台的推荐系统。通过分析数据集中的歌曲播放量和艺术家信息,平台能够为用户提供更加精准的音乐推荐,提升用户体验。此外,该数据集还被用于音乐版权管理和内容审核,帮助平台识别和过滤不适宜的内容,确保音乐内容的安全性和合规性。
衍生相关工作
LAION-DISCO-12M数据集衍生了许多相关研究工作。例如,基于该数据集的音乐推荐算法研究,提出了多种基于图神经网络和协同过滤的推荐模型。此外,数据集还被用于音乐情感分析和流派分类研究,推动了音乐信息检索领域的技术进步。这些研究工作不仅提升了音乐推荐系统的性能,还为音乐内容的理解和分析提供了新的视角。
以上内容由遇见数据集搜集并总结生成



