Covers and Hummings Aligned Dataset (CHAD)

Name: Covers and Hummings Aligned Dataset (CHAD)
Creator: 华为诺亚方舟实验室
Published: 2023-12-02 17:50:00
License: 暂无描述

arXiv2023-12-02 更新2024-06-21 收录

下载链接：

https://github.com/amanteur/CHAD

下载链接

链接失效反馈

官方服务：

资源简介：

Covers and Hummings Aligned Dataset (CHAD)是由华为诺亚方舟实验室创建的一个新型数据集，专注于音乐信息检索中的Query-by-Humming任务。该数据集包含5494首原曲和31630首翻唱版本，以及5164个哼唱片段，总计81781个音频片段，时长超过270小时。CHAD数据集通过精确的时间对齐技术，确保哼唱片段与原曲版本在时间结构上的一致性。创建过程中，利用了众包和半监督学习方法，有效地收集和扩展了数据集。该数据集主要应用于音乐检索系统，旨在通过用户哼唱的旋律快速准确地找到对应的歌曲，解决了传统音乐搜索系统中用户需精确记忆歌词或播放完整歌曲的问题。

The Covers and Hummings Aligned Dataset (CHAD) is a novel dataset developed by Huawei Noah's Ark Lab, targeting the Query-by-Humming (QbH) task in the field of Music Information Retrieval (MIR). It consists of 5,494 original songs, 31,630 cover versions, and 5,164 humming clips, with a total of 81,781 audio segments and an overall duration exceeding 270 hours. The CHAD dataset employs precise time alignment technologies to guarantee the temporal structural consistency between each humming clip and its corresponding original song version. During its curation, crowdsourcing and semi-supervised learning approaches were adopted to efficiently collect and expand the dataset. This dataset is primarily utilized in music retrieval systems, with the goal of rapidly and accurately locating matching songs based on user-hummed melodies, thereby addressing the limitation of traditional music search systems that demand users to precisely recall lyrics or play full songs to conduct a search.

提供机构：

华为诺亚方舟实验室

创建时间：

2023-12-02

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，查询-by-哼唱（QbH）任务因缺乏高质量训练数据集而面临挑战。为解决这一问题，研究者提出了Covers and Hummings Aligned Dataset（CHAD），其构建分为两个核心部分。第一部分H通过众包服务收集原始音乐片段与时间对齐的哼唱片段，形成配对组。第二部分C则从Billboard排行榜中选取1960至2020年间每年最受欢迎的100首歌曲，并为每首歌从YouTube检索最多10个翻唱版本。随后，采用半监督深度学习流水线，利用初始数据集训练的编码器模型，通过算法1从翻唱歌曲中提取与原始片段对齐的片段，并迭代扩展数据集。最终，CHAD包含5494首原始歌曲、31630首翻唱歌曲和5164个哼唱片段，总计超过270小时的音频片段，所有片段均保持时间对齐。

使用方法

CHAD数据集主要用于训练和评估基于深度学习的QbH系统。使用时，研究者可首先利用数据集中的哼唱与翻唱片段对编码器模型进行训练，采用度量学习范式，通过对比损失函数优化嵌入空间。模型输入可选用基频（f0）或常数Q变换（CQT）特征，并配合数据增强技术（如音高偏移、时间拉伸）提升鲁棒性。在检索阶段，可采用最大皮尔逊相关系数或动态时间规整进行序列匹配，并结合FAISS近似最近邻算法实现大规模数据库的快速检索。数据集还支持在MIREX QbH基准测试及内部数据库上进行评估，以验证模型在真实场景中的泛化能力。研究者可通过提供的GitHub仓库获取音频ID、元数据及下载脚本，便于数据复现与扩展。

背景与挑战

背景概述

在音乐信息检索领域，哼唱查询（Query-by-Humming, QbH）是一项旨在通过用户哼唱或演唱的音频片段来检索目标歌曲的关键任务。尽管已有若干商业解决方案取得成效，但QbH系统的构建长期受限于高质量数据集的匮乏，特别是缺乏大规模、时间对齐的哼唱与原始歌曲配对数据。为应对这一瓶颈，来自俄罗斯高等经济学院、华为诺亚方舟实验室及NUST MISiS人工智能中心的研究团队于2023年提出了Covers and Hummings Aligned Dataset（CHAD）。该数据集包含约18小时的短音乐片段及其时间对齐的哼唱版本，并通过半监督学习管道进一步扩展至超过308小时的翻唱片段。CHAD的核心创新在于将QbH任务视为翻唱歌曲识别（CSI）的特例，从而利用丰富的翻唱数据弥补哼唱数据的稀缺。该数据集不仅为深度学习驱动的QbH模型提供了训练基础，还在MIREX等权威基准上取得了具有竞争力的结果，对推动音乐检索技术的实用化发展具有重要意义。

当前挑战

CHAD数据集所解决的领域问题核心在于哼唱查询任务中高质量配对数据的稀缺性，这导致深度学习模型难以有效训练，传统方法多依赖手工特征与动态时间规整等算法，性能受限。在数据集构建过程中，研究团队面临多重挑战：首先，哼唱数据的收集成本高昂且规模有限，需通过众包方式获取，但众包数据的质量与一致性难以保证；其次，翻唱片段与原始歌曲之间的时间对齐需精确同步，而自动提取算法在处理非流行歌曲时，翻唱版本数量不足，限制了数据扩展的广度；此外，半监督管道依赖阈值筛选来过滤噪声片段，但自动验证机制仍可能引入不相关或对齐错误的样本，影响数据纯净度；最后，当前管道仅能提取人声部分，无法处理纯器乐片段，这限制了数据集在更广泛音乐类型上的适用性。

常用场景

经典使用场景

在音乐信息检索领域，哼唱查询（Query-by-Humming）是一项极具挑战性的任务，其核心在于通过用户哼唱的片段精准检索出对应的原始歌曲。CHAD数据集为此提供了高质量的训练资源，其中包含超过270小时的音频片段，涵盖原始歌曲的声乐部分与经过时间对齐的哼唱及翻唱版本。该数据集最经典的使用场景是训练深度度量学习模型，以学习鲁棒的旋律嵌入表示，从而在大型歌曲库中高效匹配用户输入的哼唱查询。研究者通常利用CHAD中的对齐片段构建正负样本对，结合对比学习或三元组损失函数，优化编码器对旋律相似性的判别能力。这一范式显著提升了模型对音高偏移、节奏变化及噪声干扰的容忍度，为后续的实时哼唱检索系统奠定了数据基础。

解决学术问题

CHAD数据集有效解决了哼唱查询研究中长期存在的训练数据匮乏这一核心瓶颈。传统方法多依赖手工设计的音频特征（如基频序列）与动态时间规整等算法，但此类方法对歌唱风格、音色差异及背景噪声极为敏感，且难以扩展到大规模真实场景。通过提供大规模、时间对齐的哼唱与翻唱片段对，CHAD使得深度神经网络能够从数据中自动学习旋律的抽象表征，从而克服了传统方法在泛化能力上的局限性。该数据集还推动了半监督学习在音乐检索中的应用——研究者利用少量标注的哼唱数据迭代扩充翻唱片段，证明了翻唱数据可有效辅助哼唱模型的训练，这一发现为降低数据采集成本提供了理论依据。其意义在于，它弥合了哼唱查询与翻唱识别两个子任务之间的鸿沟，为构建统一的旋律检索框架开辟了新路径。

实际应用

在实际应用中，CHAD数据集支撑了新一代哼唱搜索系统的开发，这类系统已集成于音乐流媒体平台、智能音箱及移动端音乐识别应用中。用户无需准确记忆歌词或歌名，仅通过哼唱一段旋律即可快速定位目标歌曲。基于CHAD训练的模型在MIREX QbH基准测试上取得了与商业系统相媲美的性能，且在包含9万首歌曲的大型内部数据库上展现出优异的可扩展性。此外，该数据集还被用于优化语音助手（如智能家居设备）的歌曲识别功能，使其能在嘈杂环境中准确解析用户哼唱的片段。在卡拉OK应用和音乐教育软件中，CHAD驱动的模型可实时评估用户演唱与原始旋律的匹配度，提供个性化的反馈与纠错建议。这些应用场景充分体现了数据集从学术研究向工业落地的价值转化。

数据集最近研究