vocal-v1

Hugging Face2026-03-12 更新2026-03-13 收录

下载链接：

https://huggingface.co/datasets/lamooon/vocal-v1

下载链接

链接失效反馈

官方服务：

资源简介：

Vocal Melody Transcription Dataset v1 是一个用于单音人声旋律转录（音高 + 起始/结束时间）的数据集。数据集包含 385 个 24kHz 单声道 WAV 音频文件和 500 个 CSV 标签文件，存储在 'processed/audio/' 和 'processed/labels/' 目录中。此外，数据集还提供了 train/val/test 的 JSON 清单文件，位于 'splits/' 目录。数据来源于 MIR-ST500，并经过音高移位、时间拉伸、噪声、人声泄漏和均衡器等增强处理。通过 'scripts/augment_audio.py' 脚本生成的增强数据包含 2,310 个文件。该数据集适用于音乐和人声转录相关任务，使用 cc-by-nc-sa-4.0 许可协议。

创建时间：

2026-03-02

原始信息汇总

Vocal Melody Transcription Dataset v1 数据集概述

数据集基本信息

数据集名称：Vocal Melody Transcription Dataset v1
数据集标识：lamooon/vocal-v1
许可证：cc-by-nc-sa-4.0
标签：music, vocal-transcription, melody
类型：单音人声旋律转录数据集（音高 + 起始/偏移）

数据内容与结构

原始音频文件：385个WAV文件（24kHz单声道），存放于processed/audio/目录。
标签文件：500个CSV文件，存放于processed/labels/目录。
数据划分清单：训练集、验证集、测试集的JSON清单文件，存放于splits/目录。
增强数据：通过scripts/augment_audio.py脚本在集群上生成，共2,310个文件。

数据来源与处理

基础数据源：MIR-ST500数据集。
数据增强方法：对基础数据进行了音高移位、时间拉伸、噪声添加、人声泄漏模拟以及均衡器（EQ）调整等增强处理。

数据获取与使用

下载命令： bash huggingface-cli download lamooon/vocal-v1 vocal_v1.tar --repo-type dataset --local-dir ./data cd data && tar xf vocal_v1.tar

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，高质量的数据集对于旋律转录模型的训练至关重要。Vocal Melody Transcription Dataset v1基于MIR-ST500数据集构建，通过系统性的数据增强策略扩展了原始样本。具体而言，该数据集对原始音频进行了音高偏移、时间拉伸、噪声添加、人声泄漏模拟以及均衡器调整等多种增强处理，生成了总计2,310个增强音频文件，从而显著提升了数据多样性和模型的鲁棒性。

特点

该数据集专注于单音人声旋律转录任务，提供了精确的音高及起止时间标注。其包含385个原始WAV格式音频文件（24kHz单声道）及500个对应的CSV标签文件，涵盖了丰富的演唱风格和音域。数据集已预先划分为训练集、验证集和测试集，并提供了标准的JSON清单文件，便于研究者直接用于模型训练与评估，确保了实验的可重复性和公平性。

使用方法

为便于使用，用户可通过Hugging Face CLI工具直接下载数据集压缩包。下载后，解压文件即可访问处理后的音频、标签及数据划分目录。研究者可依据提供的JSON清单加载对应的训练、验证和测试数据，快速构建数据管道。该数据集专为旋律转录模型设计，适用于评估音高检测与音符时序分割的联合性能，是推进自动音乐转录技术发展的关键资源。

背景与挑战

背景概述

在音乐信息检索领域，人声旋律转录作为一项基础任务，旨在从音频信号中自动提取歌唱旋律的音高与时值信息。Vocal Melody Transcription Dataset v1（简称vocal-v1）由研究团队lamooon于近年发布，专注于单声部人声旋律的转录研究。该数据集基于MIR-ST500数据集，通过音高偏移、时间拉伸、噪声添加、人声泄漏及均衡处理等增强技术构建，包含385条原始音频及500条标注文件，并扩展至2,310条增强数据。其核心研究问题在于提升旋律转录模型在复杂声学环境下的鲁棒性与准确性，为音乐分析、自动伴奏生成等应用提供了关键数据支持，推动了音频信号处理与机器学习在音乐领域的交叉进展。

当前挑战

该数据集致力于解决人声旋律转录任务中的核心挑战，即从混合音频中精确分离并转录单声部歌唱旋律，尤其在背景音乐干扰、音高变化及演唱风格多样性等复杂场景下保持性能稳定。构建过程中的挑战包括：原始数据MIR-ST500的规模有限，需通过多种增强策略（如音高偏移、时间拉伸、噪声注入）模拟真实世界声学变异，以提升数据多样性；同时，标注一致性要求高，需确保音高起始/偏移时间的精确对齐，避免人工标注误差影响模型训练。这些挑战共同指向了数据质量与泛化能力之间的平衡问题，为后续研究设立了技术门槛。

常用场景

经典使用场景

在音乐信息检索领域，Vocal Melody Transcription Dataset v1 为单音人声旋律转录任务提供了标准化的评估基准。该数据集通过包含385个单声道音频文件及对应的音高和起止时间标签，支持研究者训练和验证旋律提取算法，尤其在处理复杂人声音乐信号时，能够有效评估模型在噪声、音高偏移和时间拉伸等增强条件下的鲁棒性。

实际应用

在实际应用中，Vocal Melody Transcription Dataset v1 可服务于智能音乐教育、卡拉OK系统的人声旋律评分，以及音乐制作中的自动和声生成。其高质量的标注数据能够帮助开发工具实现实时人声旋律识别，提升用户体验，并为音乐推荐和内容检索系统提供底层技术支持。

衍生相关工作

基于该数据集，学术界衍生了一系列经典工作，包括改进的深度学习模型如卷积神经网络和循环神经网络在旋律转录任务中的应用，以及多任务学习框架结合音高和节奏预测的研究。这些工作进一步推动了音乐转录技术的进步，并催生了更广泛的跨领域合作，如语音与音乐处理的融合探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集