lakh vocal segments dataset

github2023-11-19 更新2024-05-31 收录

下载链接：

https://github.com/georgid/lakh_vocal_segments_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含流行歌曲的多乐器录音数据集，带有歌唱声音的注释转录，基于从lakh数据集匹配的MIDI。旨在为歌唱声音转录提供多样化的流派和歌手真实世界材料。

This is a dataset containing multi-instrument recordings of popular songs, with annotated transcriptions of vocal tracks, based on MIDI matched from the Lakh dataset. It aims to provide diverse genres and real-world materials from various singers for vocal transcription.

创建时间：

2017-06-02

原始信息汇总

Lakh Vocal Segments Dataset 概述

数据集描述

名称: Lakh Vocal Segments Dataset
内容: 包含多种乐器录制的流行歌曲（英文），附有歌唱声音的注释转录，基于与Lakh数据集匹配的MIDI。
目的: 提供多样化的音乐和歌手材料，用于歌唱声音转录的实际应用。

可能的应用任务

声乐起始检测
歌唱声音转录成音符
节拍检测

数据集结构

list_MSD_ids: 数据集中歌曲的列表。
scripts: 用于加载数据的Python脚本。
data: 音频文件，excerpt.txt 提供从完整录音中提取的7位数字摘录的起始和结束时间戳。
experiments: 与论文相关的实验数据。

数据集包含标准

来自MIREX Automatic_Lyrics-to-Audio_Alignment数据集的歌曲。
在Lakh数据集中有对应的MIDI链接。
30秒缩略图中主要包含歌唱声音。
有清晰的节拍脉动，节拍为4/4。

注释提取步骤

从指定列表中找到录音的MSD_TRACK_id，并使用脚本匹配。
从Lakh匹配的MIDI中获取匹配的MIDI。
使用脚本从MIDI中提取歌唱声音的音符注释。
使用脚本提取节拍注释。
验证并手动修正音符起始和节拍的注释。

数据集许可证

注释遵循Lakh数据集的许可证。音频来自MSD，仅供众包注释使用，将在数据集发布后移除。

搜集汇总

数据集介绍

构建方式

lakh vocal segments数据集的构建基于lakh数据集中的多乐器录音，特别关注流行歌曲中的人声部分。通过匹配MIDI文件，研究人员手动标注了歌曲中人声的开始和结束时间戳，并提取了相应的音频片段。此外，数据集还通过脚本自动生成了人声音符和节拍的标注，并经过手动验证和修正，以确保标注的准确性。

使用方法

用户可通过提供的Python脚本加载数据，并利用数据集进行人声起始检测、人声音符转录以及节拍检测等任务。数据集的结构清晰，包含音频文件、标注文件以及相关脚本。用户还可使用Sonic Visualiser工具对标注进行手动修正，并通过脚本调整时间戳的偏差，以优化标注的精确度。

背景与挑战

背景概述

lakh vocal segments数据集由Georgi Dzhambazov等人于2017年创建，旨在为多乐器伴奏的流行歌曲提供真实世界的歌唱语音转录材料。该数据集基于lakh数据集中的MIDI匹配，涵盖了多样化的音乐流派和歌手，主要用于歌唱语音的起始检测、音符转录和节拍检测等任务。该数据集的构建为音乐信息检索领域的研究提供了重要的实验数据，尤其是在多音轨音频中歌唱语音的自动转录方面，具有显著的影响力。

当前挑战

该数据集在构建过程中面临多重挑战。首先，歌唱语音的起始检测和音符转录在多音轨音频中尤为复杂，尤其是在存在多种乐器伴奏的情况下，准确分离和识别歌唱语音的起始点和音符具有较高的技术难度。其次，MIDI标准并未明确定义歌唱语音的乐器通道，导致在匹配MIDI时需要手动识别歌唱语音的通道，增加了数据标注的复杂性。此外，数据集中的音频片段需要手动截取和验证，以确保其与MIDI的精确对齐，这一过程耗时且容易引入误差。最后，由于数据集中的歌曲来自不同的来源，其音频质量和MIDI匹配的准确性存在差异，进一步增加了数据处理的难度。

常用场景

经典使用场景

Lakh Vocal Segments Dataset 主要用于音乐信息检索领域，特别是在歌唱声音转录和节拍检测任务中。该数据集通过对流行歌曲的多乐器录音进行标注，提供了丰富的歌唱声音转录数据，适用于研究歌唱声音的起始检测、音符转录以及节拍检测等任务。其多样化的音乐风格和歌手背景为相关研究提供了真实世界的素材。

解决学术问题

该数据集解决了音乐信息检索中的多个关键问题，尤其是歌唱声音转录的精确性问题。通过提供与MIDI对齐的歌唱声音标注，研究人员能够更准确地分析歌唱声音的音符起始时间和节拍信息。此外，该数据集还为多音轨音频中的歌唱声音分离和识别提供了重要支持，推动了自动歌词对齐和音乐结构分析等领域的研究进展。

实际应用

Lakh Vocal Segments Dataset 在实际应用中广泛用于音乐制作、音乐教育和音乐推荐系统。例如，音乐制作人可以利用该数据集中的歌唱声音标注来优化音频编辑和混音过程。音乐教育领域则可以通过该数据集开发自动化的歌唱评估工具，帮助学生提高歌唱技巧。此外，音乐推荐系统可以利用该数据集中的节拍和音符信息，为用户提供更精准的音乐推荐。

数据集最近研究