kkoutini/openmic

Name: kkoutini/openmic
Creator: kkoutini
Published: 2024-02-19 12:29:01
License: 暂无描述

Hugging Face2024-02-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/kkoutini/openmic

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: filename dtype: string - name: 'true' sequence: float32 length: 20 - name: mask sequence: int32 length: 20 - name: mp3_bytes dtype: binary splits: - name: train num_bytes: 1790991884 num_examples: 14915 - name: test num_bytes: 611455142 num_examples: 5085 download_size: 0 dataset_size: 2402447026 configs: - config_name: default data_files: - split: train path: data/shard_train_* - split: test path: data/shard_test_* --- # CPJKU/openmic The dataset is made available by Spotify AB under a Creative Commons Attribution 4.0 International (CC BY 4.0) license. The full terms of this license are included alongside this dataset. This dataset is preprocessed and compressed to 32khz mp3 files. The bytes of the mp3 files are embedded. The mp3 bytes can be decoded quickly using for [example](https://github.com/kkoutini/PaSST/blob/4519e4605989b8c2e62dccb5b928af9bf7bf8602/audioset/dataset.py#L55) or [minimp3](https://github.com/f0k/minimp3py). Take a look at the original dataset for more information. The original dataset contains the following: 10 second snippets of audio, in a directory format like 'audio/{0:3}/{0}.ogg'.format(sample_key) VGGish features as JSON objects, in a directory format like 'vggish/{0:3}/{0}.json'.format(sample_key) MD5 checksums for each OGG and JSON file Anonymized individual responses, in 'openmic-2018-individual-responses.csv' Aggregated labels, in 'openmic-2018-aggregated-labels.csv' Track metadata, with licenses for each audio recording, in 'openmic-2018-metadata.csv' A Python-friendly NPZ file of features and labels, 'openmic-2018.npz' Sample partitions for train and test, in 'partitions/*.txt' ## Homepage https://zenodo.org/records/1432913 ## Citation ``` Humphrey, Eric J., Durand, Simon, and McFee, Brian. "OpenMIC-2018: An Open Dataset for Multiple Instrument Recognition." in Proceedings of the 19th International Society for Music Information Retrieval Conference (ISMIR), 2018. ``` ## License CC BY 4.0

数据集信息：特征： - 名称：filename，数据类型：字符串 - 名称：`true`，为长度20的float32型序列 - 名称：mask，为长度20的int32型序列 - 名称：mp3_bytes，数据类型：二进制划分： - 名称：train（训练集），占用字节数：1790991884字节，样本数：14915 - 名称：test（测试集），占用字节数：611455142字节，样本数：5085 下载大小：0字节数据集总大小：2402447026字节配置： - 配置名称：default（默认配置），数据文件： - 训练集对应路径：data/shard_train_* - 测试集对应路径：data/shard_test_* # CPJKU/openmic 本数据集由Spotify AB按照知识共享署名4.0国际许可（Creative Commons Attribution 4.0 International，CC BY 4.0）发布，该许可的完整条款随本数据集一同提供。本数据集已完成预处理并压缩为32kHz的MP3文件，MP3文件的二进制字节已嵌入数据集内。可通过例如[PaSST库dataset.py](https://github.com/kkoutini/PaSST/blob/4519e4605989b8c2e62dccb5b928af9bf7bf8602/audioset/dataset.py#L55)或[minimp3py](https://github.com/f0k/minimp3py)快速解码该MP3字节数据。如需获取更多信息，请查阅原始数据集。原始数据集包含以下内容： 1. 10秒长度的音频片段，存储路径格式为`audio/{0:3}/{0}.ogg.format(sample_key)` 2. 以JSON对象形式存储的VGGish特征，存储路径格式为`vggish/{0:3}/{0}.json.format(sample_key)` 3. 每个OGG文件与JSON文件的MD5校验和 4. 匿名化的单条标注响应，存储于文件`openmic-2018-individual-responses.csv` 5. 聚合后的标注标签，存储于文件`openmic-2018-aggregated-labels.csv` 6. 轨道元数据（包含每条音频录制的许可信息），存储于文件`openmic-2018-metadata.csv` 7. 适用于Python的特征与标签NPZ文件`openmic-2018.npz` 8. 训练集与测试集的样本划分文件，存储于路径`partitions/*.txt` ## 项目主页 https://zenodo.org/records/1432913 ## 引用文献汉弗莱斯（Eric J. Humphrey）、迪朗（Simon Durand）、麦克菲（Brian McFee）. 《OpenMIC-2018：用于多乐器识别的开源数据集》[C]//第19届国际音乐信息检索学会会议（ISMIR 2018）论文集, 2018. ## 许可协议 CC BY 4.0（知识共享署名4.0国际许可）

提供机构：

kkoutini

原始信息汇总

数据集信息

特征

filename: 字符串类型
true: 浮点数序列，长度为20
mask: 整数序列，长度为20
mp3_bytes: 二进制类型

分割

train: 字节数为1790991884，样本数为14915
test: 字节数为611455142，样本数为5085

大小

下载大小: 0
数据集大小: 2402447026

配置

config_name: default
- data_files:
  - split: train, 路径: data/shard_train_*
  - split: test, 路径: data/shard_test_*

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，数据集的构建需兼顾多样性与标注质量。OpenMIC-2018数据集源自Spotify AB，其构建过程严谨而系统：原始音频数据采集自Freesound平台，涵盖多种乐器演奏的10秒片段，并以OGG格式存储。为提升数据可用性，研究团队不仅提供了原始音频，还提取了VGGish音频特征，并以JSON格式封装。标注工作通过众包平台进行，收集了匿名个体的乐器识别响应，再经统计聚合生成多标签标注，最终整合为包含音频文件、特征向量、标注及元数据的结构化数据集，确保了数据的全面性与可追溯性。

特点

OpenMIC-2018数据集在乐器识别研究中展现出独特优势。其核心特点在于多乐器标注体系，每条音频样本可能对应多种乐器，真实反映了音乐中乐器叠加的复杂场景。数据集包含20类常见乐器，标注以浮点序列形式呈现，并辅以掩码标识有效标签，增强了标注的灵活性与精度。音频数据经预处理转换为32kHz MP3格式，并以二进制字节形式嵌入，便于高效存储与解码。此外，数据集严格划分训练集与测试集，确保了模型评估的可靠性，为多标签分类任务提供了高质量基准。

使用方法

在音乐信息检索的应用中，OpenMIC-2018数据集为多乐器识别模型提供了标准测试平台。使用者可通过HuggingFace平台直接加载数据集，获取包含文件名、标注序列、掩码及MP3字节的标准化条目。音频字节可利用minimp3等库快速解码为波形数据，进而输入深度学习模型进行特征学习与分类。数据集支持直接用于训练与评估，用户可依据标注序列与掩码计算多标签损失，或结合提供的VGGish特征进行迁移学习。其清晰的许可协议（CC BY 4.0）允许学术与商业用途的灵活拓展，促进了开源研究的广泛协作。

背景与挑战

背景概述

在音乐信息检索领域，多乐器识别作为一项核心任务，长期面临数据稀缺与标注复杂性等挑战。OpenMIC-2018数据集由Spotify AB的研究团队于2018年创建，主要研究人员包括Eric J. Humphrey、Simon Durand和Brian McFee。该数据集旨在提供一个开放、标准化的基准，以推动多乐器同时识别技术的发展，其通过精心设计的标注流程和丰富的音频样本，显著提升了模型在复杂声学环境下的泛化能力，对音乐自动标注、智能编曲等应用产生了深远影响。

当前挑战

OpenMIC-2018数据集致力于解决多乐器识别中的领域挑战，包括音频信号中乐器重叠导致的分类模糊性、声学环境多样性引起的特征提取困难，以及标注不一致性对模型训练造成的干扰。在构建过程中，团队面临数据收集与版权协调的复杂性，需确保大量音频样本的合法可用性；同时，标注流程涉及多人主观判断，需通过聚合策略平衡个体差异，保证标签的可靠性与一致性，这些因素共同构成了数据集开发的核心难点。

常用场景

经典使用场景

在音乐信息检索领域，多乐器识别是核心挑战之一，kkoutini/openmic数据集为此提供了标准化的评估基准。该数据集包含20种乐器的10秒音频片段，并附有精细的标注信息，常用于训练和测试深度学习模型，如卷积神经网络或变换器架构，以识别音频中同时存在的多种乐器。研究者利用其丰富的乐器类别和高质量的标注，能够系统评估模型在多标签分类任务中的性能，推动音乐自动标注技术的发展。

实际应用

在实际应用中，kkoutini/openmic数据集为音乐流媒体平台的智能推荐系统与内容管理提供了技术基础。通过精准识别音频中的乐器组成，平台能够实现更细致的音乐分类，增强个性化播放列表的生成，例如为用户推荐特定乐器主导的曲目。此外，该数据集还可辅助音乐教育软件，帮助学习者识别和区分不同乐器的声音，或用于广播媒体的自动内容标注，提升音频档案的管理效率。

衍生相关工作

围绕kkoutini/openmic数据集，已衍生出多项经典研究工作，例如基于注意力机制的端到端多乐器识别模型，这些模型利用数据集的丰富标注优化了特征提取过程。此外，一些研究专注于弱监督学习策略，以处理数据集中部分缺失的标签信息，提高了模型在真实场景下的适用性。这些工作不仅推动了音乐信息检索算法的进步，还为跨模态学习，如音频与乐谱的对齐，提供了重要的方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集