HSD

Name: HSD
Creator: 早稻田大学信息生产与系统研究生院
Published: 2022-09-27 01:00:07
License: 暂无描述

arXiv2022-09-27 更新2024-06-21 收录

下载链接：

https://github.com/hirabarahyt/HSD-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

HSD数据集由早稻田大学信息生产与系统研究生院创建，包含68首来自YouTube的流行歌曲，旨在提供音乐的层次结构信息。该数据集详细记录了每首歌曲中每个音乐音符的起始/结束时间、音高、持续时间和歌词，采用增强的LyRiCs格式。创建过程分为两个阶段：首先使用音乐符号和LyRiCs文件创建初始标签，然后通过手动校准这些标签以确保准确性。HSD数据集主要应用于音乐信息检索领域，特别是自动歌唱转录任务，以提高转录的准确性和效率。

The HSD Dataset was developed by the Graduate School of Information, Production and Systems, Waseda University. It contains 68 popular songs sourced from YouTube, and is intended to provide hierarchical structural information of music. This dataset meticulously records the start/end time, pitch, duration, and lyrics of each musical note across every song, utilizing an enhanced LyRiCs format. Its creation process is divided into two stages: firstly, initial labels are generated using musical notation and LyRiCs files, followed by manual calibration of these labels to ensure accuracy. The HSD Dataset is primarily applied in the field of Music Information Retrieval (MIR), specifically for automatic singing transcription tasks to enhance the accuracy and efficiency of transcription.

提供机构：

早稻田大学信息生产与系统研究生院

创建时间：

2022-09-27

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，歌唱标注数据集的构建通常聚焦于音符的符号化信息，而忽略了音乐固有的层次结构。HSD数据集的构建采用了一种两阶段的标注流程：首先，通过结合乐谱与歌词文件（LRC）的N&L方法，生成初始的音符标签，包括音高、时长及歌词；随后，通过人工校准过程，参照原始音频对音符的起始与结束时间进行精细调整，确保标注的准确性。这一方法不仅保留了音符级别的详细信息，还通过增强的LRC格式呈现了音乐短语与音符的层次关系。

特点

HSD数据集的核心特点在于其层次化的标注结构，这在现有歌唱标注数据集中较为罕见。它不仅记录了每个音符的起始/结束时间、音高、时长和歌词，还通过短语时间戳将音符组织为层次化的音乐结构，从而更贴近真实歌唱的语义表达。数据集包含68首流行歌曲，主要源自中文和日文曲目，标注精度经对比验证达到自动歌唱转录数据集的水平。这种层次化设计为音乐结构分析、歌词对齐及旋律生成等任务提供了更丰富的语义信息。

使用方法

HSD数据集以增强的LRC格式提供标注文件，用户可直接解析该格式获取层次化的音符与短语信息。对于音乐信息检索研究，该数据集适用于歌唱转录、歌词对齐、旋律生成等任务，其层次结构支持对音乐语义的深入分析。此外，数据集开源提供了标注框架与源代码，用户可基于自有乐谱与歌词文件扩展标注，或通过调整短语时间戳进行自定义校准。使用时可结合原始音频与标注文件，实现端到端的模型训练或评估。

背景与挑战

背景概述

在音乐信息检索领域，歌唱标注数据集对于推动自动歌唱转录、歌词对齐及符号音乐生成等任务具有关键作用。HSD（Hierarchical Singing Annotation Dataset）由早稻田大学信息生产系统研究科的研究团队于2022年构建，旨在解决现有歌唱标注数据集中普遍忽视音乐层次结构的问题。该数据集收录了68首流行歌曲，采用增强型LRC格式记录每个音符的起始/结束时间、音高、时长及歌词，并首次以分层形式呈现音乐短语与音符的从属关系。其创新性在于融合了符号信息与时间对齐数据，为多层次音乐分析提供了标准化资源，对歌唱相关研究的深度与广度产生了显著影响。

当前挑战

HSD数据集致力于解决歌唱层次结构建模的挑战，其核心在于如何准确捕捉并标注音乐中固有的短语-音符层级关系，以支持复杂音乐理解任务。在构建过程中，研究团队面临双重困难：其一，初始标注依赖于乐谱与歌词文件的匹配，但即兴演唱片段因未在乐谱中记录而无法被初始化，导致数据覆盖存在盲点；其二，手动校准过程虽通过调整短语时间戳提升了效率，却对标注者的音乐专业知识提出较高要求，且跨语言歌曲（如中文与日文）的歌词统一表征增加了标注复杂性。这些挑战凸显了在保持高精度与结构完整性的同时，平衡自动化与人工干预的难度。

常用场景

经典使用场景

在音乐信息检索领域，HSD数据集以其层次化歌唱标注特性，为研究歌唱结构分析提供了关键支持。该数据集通过记录流行歌曲中每个音符的起始/结束时间、音高、持续时间和歌词，并以增强的LRC格式呈现音乐的层次结构，使得研究者能够深入探索歌唱部分的旋律组织方式。其经典使用场景包括自动歌唱转录任务，其中模型需要准确识别歌唱中的音符序列及其时间信息，而HSD的层次化标注为这类任务提供了更丰富的上下文信息，有助于提升转录的准确性和音乐理解的深度。

衍生相关工作

基于HSD数据集，衍生出多项经典研究工作，主要集中在音乐信息检索的算法优化和新任务探索。例如，研究者利用其层次化标注开发了改进的自动歌唱转录模型，这些模型通过结合短语级上下文，显著提升了音符边界检测的精度。同时，HSD也启发了跨模态音乐分析，如将歌唱结构与视觉表演同步的研究，促进了音乐与多媒体技术的融合。这些工作进一步扩展了数据集的学术影响力，为音乐人工智能领域提供了新的研究方向。

数据集最近研究