PIAST

Name: PIAST
Creator: 韩国科学技术院文化技术研究生院
Published: 2024-11-07 15:18:51
License: 暂无描述

arXiv2024-11-07 更新2024-11-07 收录

下载链接：

https://hayeonbang.github.io/PIAST_dataset/

下载链接

链接失效反馈

官方服务：

资源简介：

PIAST数据集是由韩国科学技术院文化技术研究生院和NCSOFT公司共同创建的多模态钢琴音乐数据集，旨在填补钢琴独奏音乐文本标签数据集的空白。该数据集包含9673条记录，涵盖音频、文本、标签注释和转录的MIDI数据。数据集的创建过程包括从YouTube收集数据并进行人工注释，确保数据的广度和准确性。PIAST数据集的应用领域广泛，包括音乐标签和检索、文本音乐生成、音乐分析和情感/风格分类，旨在解决现有钢琴数据集缺乏文本信息的问题。

The PIAST dataset is a multimodal piano music dataset jointly developed by the Graduate School of Culture Technology, Korea Advanced Institute of Science and Technology (KAIST) and NCSOFT, aiming to fill the gap in text-labeled piano solo music datasets. This dataset contains 9,673 records, covering audio, text, label annotations, and transcribed MIDI data. The dataset creation process involves collecting data from YouTube and conducting manual annotations to ensure the breadth and accuracy of the data. The PIAST dataset has a wide range of application scenarios, including music tagging and retrieval, text-to-music generation, music analysis, and emotion/style classification, and it is designed to address the issue of lacking textual information in existing piano datasets.

提供机构：

韩国科学技术院文化技术研究生院

创建时间：

2024-11-05

搜集汇总

数据集介绍

构建方式

PIAST数据集的构建过程始于一个专门为钢琴音乐设计的31个标签的分类法，涵盖了风格、情感、情绪和流派等多个维度。通过从YouTube收集的9,673个音频轨道，结合音乐专家对2,023个轨道的详细注释，形成了PIAST-YT和PIAST-AT两个子集。每个子集不仅包含音频和文本信息，还通过先进的钢琴转录和节拍跟踪模型生成了MIDI数据，确保了数据的多模态性和高质量。

特点

PIAST数据集的显著特点在于其多模态性，包括音频、符号（MIDI）和文本数据的集成，这为音乐信息检索（MIR）研究提供了丰富的资源。此外，数据集通过音乐专家的注释确保了标签的准确性和深度，特别适用于需要精细分类和情感分析的任务。其独特的钢琴音乐分类法和多层次的文本注释，使得PIAST在音乐分类、生成和检索等任务中表现出色。

使用方法

PIAST数据集的使用方法多样，适用于音乐标签分类、音乐检索和音乐生成等多种任务。研究者可以利用其多模态数据进行模型预训练，通过音频、MIDI和文本数据的联合嵌入来提升模型的泛化能力。在具体应用中，PIAST-YT子集适合大规模数据预处理和模型训练，而PIAST-AT子集则提供了高质量的注释数据，适合精细任务的微调和验证。通过这些方法，PIAST数据集能够显著提升音乐信息检索和音乐生成模型的性能。

背景与挑战

背景概述

在音乐信息检索（MIR）领域，钢琴音乐因其独特的表达多样性和优越的转录性能，已成为一个重要的研究方向。然而，现有的多模态音乐数据集，尤其是音乐与文本结合的数据集，很少专注于钢琴音乐，且钢琴独奏作品仅占其中一小部分。为了填补这一空白，韩国科学技术院（KAIST）和NCSOFT的研究团队于2024年推出了PIAST数据集。该数据集包含9,673条从YouTube收集的音频和文本信息，以及2,023条由音乐专家注释的音频和文本信息。PIAST数据集不仅提供了音频和MIDI数据，还引入了丰富的文本注释，旨在支持音乐标签和检索任务，为MIR研究提供了宝贵的资源。

当前挑战

PIAST数据集在构建过程中面临多项挑战。首先，从YouTube收集的数据存在不平衡问题，需通过筛选和预处理确保数据质量。其次，文本数据的处理需借助大型语言模型（如ChatGPT 4-Turbo），以生成与音乐内容相关的标签。此外，数据集的注释过程依赖于音乐专家，确保注释的准确性和一致性。最后，数据集在情感和风格标签的分布上存在不均衡，某些标签的样本数量较少，影响模型的泛化能力。这些挑战需要在未来的研究中进一步解决，以提升数据集的应用价值。

常用场景

经典使用场景

PIAST数据集的经典使用场景主要集中在钢琴音乐的多模态信息处理上。通过整合音频、符号（MIDI）和文本数据，该数据集支持音乐信息检索（MIR）中的多种任务，如音乐分类、音乐生成和音乐情感分析。具体应用包括利用音频和MIDI数据进行音乐标签和检索，以及通过文本信息进行音乐情感和风格的识别。这些任务不仅展示了数据集的多模态特性，还为音乐研究和应用提供了丰富的数据支持。

衍生相关工作

PIAST数据集的发布催生了多项相关研究工作，特别是在音乐信息检索和音乐生成领域。例如，基于PIAST数据集的研究已经提出了多种音乐标签和检索模型，显著提升了音乐分类和检索的准确性。此外，数据集的多模态特性也激发了新的音乐生成方法，如结合音频和文本信息的音乐创作模型。这些衍生工作不仅丰富了音乐信息检索的研究内容，还为实际应用提供了新的技术支持。

数据集最近研究