AcousticBrainz Genre Dataset
收藏github2024-03-12 更新2024-05-31 收录
下载链接:
https://github.com/MTG/acousticbrainz-genre-dataset
下载链接
链接失效反馈官方服务:
资源简介:
AcousticBrainz Genre Dataset是一个大规模的多源多标签层次化音乐流派标注数据集,允许研究者探索同一音乐作品在不同社区中如何根据各自的流派分类法进行不同的标注,并探讨这如何被流派识别系统解决。该数据集旨在促进基于内容的音乐流派识别以及流派元数据分析的跨学科研究。
The AcousticBrainz Genre Dataset is a large-scale, multi-source, multi-label hierarchical music genre annotation dataset. It enables researchers to explore how the same musical work is annotated differently across various communities based on their respective genre taxonomies, and to investigate how this is addressed by genre recognition systems. The dataset aims to foster interdisciplinary research in content-based music genre recognition and genre metadata analysis.
创建时间:
2019-06-26
原始信息汇总
数据集概述
名称:The AcousticBrainz Genre Dataset
类型:多源、多标签的层次化音乐类型标注数据集
目的:用于研究同一音乐作品在不同社区中如何根据各自的类型分类体系进行不同标注,以及如何通过类型识别系统解决这些问题。
数据来源
- 数据类型:包含专家和众包的类型标签,允许比较严格层次和民间分类法。
- 音乐特征:通过AcousticBrainz数据库提供。
数据集构成
- 来源:四个不同的在线音乐元数据网站。
- 类型分类:每个来源的类型分类在类别空间、特异性和广度上有所不同。
- 数据集:提供四个数据集,包含从四个不同在线元数据源提取的类型和子类型标注。
- AllMusic 和 Discogs:基于音乐专家和爱好者维护的编辑元数据数据库。
- Lastfm 和 Tagtraum:基于协作音乐标记平台,由用户提供大量类型标签。
数据特点
- 多标签:同一音乐录音可能有多重类型和子类型标注。
- 保证:每个录音至少有一个类型标签,但子类型不一定存在。
许可与使用
- 许可:除AllMusic数据库外,其他数据集遵循CC BY-NC-SA4.0许可。
- 使用限制:AllMusic数据库的数据仅用于非商业科学研究,任何基于该数据的研究成果发布必须引用AllMusic作为数据源。
下载与使用
- 下载:开发和验证数据集可在Zenodo上获取。
- 测试集:需请求获取。
- 用途:用于音乐类型识别任务,开发预测未知音乐录音类型和子类型的系统。
引用
- 参考文献:Bogdanov, D., Porter A., Schreiber H., Urbano J., & Oramas S. (2019). The AcousticBrainz Genre Dataset: Multi-Source, Multi-Level, Multi-Label, and Large-Scale. 20th International Society for Music Information Retrieval Conference (ISMIR 2019).
搜集汇总
数据集介绍

构建方式
AcousticBrainz Genre Dataset的构建基于多源多标签的层次化流派注释,涵盖了来自不同元数据源的音乐作品。数据集的流派标签源自专家注释和众包平台,允许在严格层次结构和大众分类法之间进行比较。具体而言,AllMusic和Discogs的数据来自音乐专家和爱好者维护的编辑元数据库,其流派和子流派注释遵循预定义的命名空间和分类法,并通过将专辑级别的注释传播到AcousticBrainz中的录音(曲目)来构建数据集。Lastfm和Tagtraum则基于协作音乐标签平台,通过用户提供的流派标签自动推断出流派和子流派的分类法。数据集中的注释为多标签形式,确保每条录音至少有一个流派标签。
特点
AcousticBrainz Genre Dataset的特点在于其多源性和多标签性,能够反映不同社区对同一音乐作品的不同流派分类方式。数据集包含四个不同的在线元数据源,每个源都有其独特的流派分类体系,涵盖了不同的类别空间、特异性和广度。此外,数据集中的注释为多标签形式,同一录音可能对应多个流派和子流派标签,这为研究流派识别系统提供了丰富的多样性。数据集的构建还特别注重了专家注释与大众标签的对比,为跨学科的流派元数据分析提供了重要资源。
使用方法
AcousticBrainz Genre Dataset可用于音乐流派识别(MGR)任务,旨在开发能够根据自动计算的音乐特征预测未知录音(歌曲)流派和子流派的系统。数据集提供了四个训练集和四个验证集,所有数据均公开可用,而测试集的真实标签则隐藏,供未来的MGR挑战使用。研究人员可以使用训练集和验证集来评估流派识别系统的性能,并通过请求访问测试集进行进一步验证。数据集的使用不仅限于流派识别,还可用于开发自动注释算法,并在具有不同分类法和覆盖范围的互补数据集上进行验证。
背景与挑战
背景概述
AcousticBrainz Genre Dataset是一个多源、多标签的音乐流派注释数据集,由多个研究机构合作创建,旨在推动基于内容的音乐流派识别研究。该数据集于2019年由Bogdanov等人首次发布,并在国际音乐信息检索会议(ISMIR)上进行了详细介绍。数据集的核心研究问题在于探索不同社区如何根据各自的流派分类体系对同一音乐作品进行注释,并研究如何通过流派识别系统解决这些差异。数据集的流派标签来源于专家注释和众包平台,涵盖了AllMusic、Discogs、Lastfm和Tagtraum四个不同的元数据源,每个源都有其独特的流派分类体系。该数据集为音乐信息检索领域的研究提供了重要的数据支持,特别是在跨学科流派元数据分析方面具有显著影响力。
当前挑战
AcousticBrainz Genre Dataset在构建和应用过程中面临多重挑战。首先,不同元数据源的流派分类体系存在显著差异,如何将这些异构的注释整合到一个统一的框架中是一个复杂的问题。其次,数据集中的注释是多标签的,同一音乐作品可能被赋予多个流派和子流派标签,这增加了模型训练的难度。此外,数据集的构建依赖于众包平台和专家注释,如何确保注释的准确性和一致性也是一个重要挑战。在应用层面,该数据集旨在推动音乐流派识别系统的发展,但由于不同源的流派分类体系差异较大,如何设计能够适应多种分类体系的通用模型仍然是一个未解决的问题。最后,数据集的测试集未公开真实标签,这限制了其在公开评估中的应用,需要通过特定请求才能进行测试。
常用场景
经典使用场景
在音乐信息检索领域,AcousticBrainz Genre Dataset被广泛应用于音乐流派识别任务。该数据集通过整合来自不同元数据源的层次化多标签流派注释,为研究者提供了一个独特的视角,以探索不同社区如何根据其自身的流派分类体系对同一音乐作品进行标注。这种多样性使得该数据集成为开发和验证自动流派识别系统的理想选择,尤其是在处理多源、多层次和多标签的复杂场景时。
解决学术问题
AcousticBrainz Genre Dataset解决了音乐流派识别中的多个关键学术问题。首先,它通过提供来自专家和众包的流派标签,使得研究者能够比较严格分类体系与大众分类法的差异。其次,该数据集的多源特性为跨学科研究提供了丰富的数据基础,帮助研究者深入分析不同元数据源之间的流派标注差异。此外,该数据集的大规模和多标签特性为开发更精确的流派识别算法提供了挑战和机遇,推动了内容音乐流派识别技术的发展。
衍生相关工作
AcousticBrainz Genre Dataset的发布催生了一系列相关研究工作,尤其是在音乐流派识别和元数据分析领域。基于该数据集,研究者开发了多种自动流派识别算法,并在MediaEval等国际评测任务中进行了广泛验证。此外,该数据集的多源特性激发了跨学科研究,推动了音乐流派分类体系与大众分类法的比较研究。相关研究不仅提升了音乐流派识别的技术水平,还为音乐元数据分析提供了新的视角和方法,进一步丰富了音乐信息检索领域的研究成果。
以上内容由遇见数据集搜集并总结生成



