fma-mert-embeddings

Hugging Face2026-03-26 更新2026-03-27 收录

下载链接：

https://huggingface.co/datasets/treadon/fma-mert-embeddings

下载链接

链接失效反馈

官方服务：

资源简介：

FMA-MERT Embeddings 是一个基于 FMA-Small 数据集的预计算音频嵌入数据集，包含 7,997 条音轨的 MERT-v1-330M 嵌入向量（每向量 1024 维）和基于播放量的流行度评分（banger_score）。数据集旨在为音乐质量评分、音乐相似性搜索和音频表示学习等任务提供便捷的预计算特征，无需下载原始音频或运行 MERT 模型。数据内容： - 每条记录代表 FMA-Small 中的一首音轨，包含音轨ID（track_id）、1024维嵌入向量（embedding）、0-10分的流行度评分（banger_score）、流派标签（genre）和原始播放量（listens）。数据规模： - 7,997 条音轨（原始 8,000 条中有 3 条损坏 MP3 未能处理） - 每条音轨对应一个 1024 维向量 - 磁盘存储约 31 MB（NumPy 格式）流派分布：数据集在 8 个顶级流派中均衡分布（每个流派约 1,000 条音轨）：嘻哈、流行、民谣、实验、摇滚、国际、电子和器乐。评分分布：流行度评分通过对原始播放量进行对数归一化得到（0-10分），大多数音轨集中在1-5分区间，极少音轨获得高分（≥9分的仅4条），反映音乐流行度的长尾分布特征。适用任务： - 音乐质量评分模型训练 - 音乐相似性搜索 - 流派分类 - 音乐表示空间分析 - 音乐信息检索基准测试

创建时间：

2026-03-26

原始信息汇总

FMA-MERT Embeddings 数据集概述

数据集基本信息

名称：FMA-MERT Embeddings
许可证：Apache-2.0
标签：音乐、音频、嵌入向量、MERT、FMA、音乐信息检索
任务类别：音频分类、特征提取
语言：英语
规模：1K<n<10K

数据集描述

该数据集为FMA-Small数据集提供了预计算的MERT-v1-330M嵌入向量。包含7,997条音轨，每条音轨表示为一个1024维向量，并附有基于播放次数对数归一化得出的“热门度”分数（0-10分）。

数据字段

字段名	类型	描述
`track_id`	int	FMA音轨标识符
`embedding`	list[float] (1024)	平均池化后的MERT-v1-330M嵌入向量
`banger_score`	float (0-10)	对数归一化后的播放次数，缩放到0-10分
`genre`	string	FMA元数据中的顶级流派
`listens`	int	FMA中的原始播放次数

数据集规模

音轨数量：7,997条（原始8,000条中有3条损坏的MP3在嵌入提取过程中失败，成功率为99.96%）
嵌入维度：每条音轨1024维
磁盘占用：存储为NumPy数组约31 MB

流派分布

FMA-Small在8个流派上完全平衡（每个流派约1,000条音轨）：

流派	数量
Hip-Hop	~1,000
Pop	~1,000
Folk	~1,000
Experimental	~1,000
Rock	~1,000
International	~1,000
Electronic	~1,000
Instrumental	~1,000

分数分布

热门度分数通过对播放次数进行对数归一化计算得出。

统计量	值
均值	3.27
中位数	3.20
标准差	1.37
最小值	0.00
最大值	10.00
分数 >= 5.0 的音轨	668 (8.4%)
分数 >= 7.0 的音轨	45 (0.6%)
分数 >= 9.0 的音轨	4 (0.1%)

源数据

音频来源：FMA (Free Music Archive) 数据集。FMA-Small子集包含8,000条30秒音频片段（7.2 GB），采用知识共享许可协议。
播放次数范围：196 到 543,252（均值4,730，中位数2,492）。

嵌入向量生成方法

模型：m-a-p/MERT-v1-330M（一个330M参数、24层的自监督音乐理解模型）。
处理流程：
1. 加载每条MP3音轨，使用librosa重采样为24kHz单声道。
2. 截断至最长30秒。
3. 通过MERT的特征提取器和前向传播。
4. 在时间维度上对最后一个隐藏状态进行平均池化，为每条音轨生成一个1024维向量。
5. 保存为NumPy数组。
计算信息：
- 设备：Apple M4 Pro，Metal Performance Shaders (MPS)
- 处理速度：1.3 条音轨/秒
- 总时间：7,997条音轨耗时101分钟
- 峰值内存：约1.7 GB
- 失败：8,000条中的3条（损坏的MP3文件）

使用方式

可通过Hugging Face datasets库加载，用于训练音乐质量评分器、音乐相似性搜索、流派分类等任务。

主要用途

训练音乐质量评分器，无需下载7.2 GB的FMA音频或运行MERT模型。
音乐相似性搜索：计算嵌入向量之间的余弦相似度。
流派分类：利用流派标签在嵌入向量上训练分类器。
探索MERT的表示空间：使用t-SNE/UMAP可视化，分析各维度捕获的音乐特征。
音乐理解任务的基线：与微调模型或其他音频模型进行比较。

局限性

仅限FMA-Small：8,000条音轨规模相对较小。
流行度标签存在噪声：播放次数受多种因素影响，是音乐质量的不完美代理指标。
平均池化丢弃了时序信息：嵌入向量捕获了“发生了什么”，但没有捕获“何时发生”。
30秒片段：嵌入向量仅代表每首歌曲的一部分。
固定的MERT版本：嵌入向量来自MERT-v1-330M，与其他音频编码器或MERT版本不兼容。

引用

MERT模型：Li, Yizhi, et al. "MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training." arXiv preprint arXiv:2306.00107 (2023).
FMA数据集：Defferrard, Michaël, et al. "FMA: A Dataset For Music Analysis." ISMIR. 2017.

数据集联系人

HuggingFace上的 treadon

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，数据集的构建往往需要平衡计算效率与表征质量。FMA-MERT Embeddings数据集基于FMA-Small音频库，通过MERT-v1-330M模型进行特征提取。该模型作为自监督音乐理解模型，在16万小时音频数据上预训练，能够捕捉音乐中的节奏、和声与音色特征。构建过程中，首先将每段MP3音频重采样为24kHz单声道，并截取至多30秒长度，随后通过MERT特征提取器生成时间维度的隐藏状态，最终沿时间轴进行均值池化，得到每首曲目的1024维向量表示。整个流程成功处理了7997首曲目，仅因文件损坏导致3首失败，体现了较高的鲁棒性。

使用方法

使用该数据集时，研究者可通过Hugging Face的datasets库直接加载，获取嵌入向量、热度分数及流派标签。这些预计算嵌入可用于多种下游任务，例如训练音乐质量评分模型，通过构建多层感知机等回归网络预测热度分数；也可用于音乐相似性计算，通过余弦距离比较嵌入向量以发现风格相近的曲目。数据集的平衡流派分布支持音乐分类任务，而嵌入向量本身可作为音乐表征学习的基准，用于可视化分析或与其他音频模型的性能对比。整个使用流程无需本地运行MERT模型，显著降低了计算门槛与时间成本。

背景与挑战

背景概述

在音乐信息检索领域，高质量音频表征的获取是推动算法发展的核心。FMA-MERT Embeddings数据集应运而生，由研究人员treadon于近期构建，旨在为学术社区提供便捷的预计算音频嵌入。该数据集基于著名的FMA-Small音频库，并利用先进的MERT-v1-330M模型进行特征提取，生成了7,997条音轨的1024维向量表示，同时附带了基于播放量对数归一化的流行度评分。这一工作显著降低了研究者进行音乐质量评分、相似性搜索等任务的算力与时间门槛，为音频表征学习提供了宝贵的基准资源。

当前挑战

该数据集致力于解决音乐信息检索中音频表征学习与音乐流行度预测的挑战。其核心挑战在于如何从音频信号中提取出既保留丰富音乐语义、又能有效关联外部标签（如流行度）的紧凑表征。在构建过程中，面临多重困难：原始FMA-Small数据规模有限，仅包含8,000条音轨，可能无法涵盖音乐风格的完整多样性；采用播放量作为流行度标签存在固有噪声，因其受推广渠道、用户基数等非音乐因素干扰；此外，特征提取采用均值池化策略，虽简化了处理流程，却损失了音频信号中至关重要的时序结构信息，可能影响对音乐动态变化的建模能力。

常用场景

经典使用场景

在音乐信息检索领域，FMA-MERT Embeddings数据集为研究者提供了一个高效的音乐表示学习平台。该数据集通过预计算的MERT-v1-330M嵌入向量，将FMA-Small中的7,997首音乐片段编码为1024维特征，并附带了基于播放量的流行度评分。经典使用场景包括训练音乐质量评分模型，研究者可直接利用这些嵌入向量构建回归或分类器，预测音乐的流行潜力，而无需处理原始音频数据或运行复杂的特征提取模型。此外，该数据集支持音乐相似性计算，通过余弦距离度量嵌入向量间的相似性，实现基于内容的音乐推荐或聚类分析，为音乐理解任务提供了便捷的基线工具。

解决学术问题

该数据集有效解决了音乐计算研究中常见的资源限制问题。传统音频分析需要大量计算资源处理原始波形或频谱图，而FMA-MERT Embeddings提供了预提取的高维表示，降低了实验门槛，使研究者能专注于模型设计与评估。它通过基于播放量的流行度评分，为音乐质量评估这一主观问题提供了可量化的代理标签，促进了客观评价指标的发展。同时，嵌入向量捕捉了音乐的节奏、和声与音色特征，为探索音乐语义表示的空间结构提供了数据基础，推动了自监督学习在音频领域的应用。

实际应用

在实际应用中，FMA-MERT Embeddings可服务于音乐流媒体平台的智能推荐系统。通过嵌入向量的相似性搜索，平台能为用户推荐音色或风格相近的曲目，增强个性化体验。音乐制作领域可利用该数据集训练质量预测模型，辅助创作者评估作品的潜在市场反响。此外，教育机构可借助其进行音乐分类教学，学生通过可视化工具如t-SNE分析嵌入空间，直观理解不同音乐流派间的特征差异。这些应用不仅提升了音乐服务的智能化水平，也为跨学科研究提供了实践案例。

数据集最近研究