ccmusic-database/acapella

Name: ccmusic-database/acapella
Creator: ccmusic-database
Published: 2026-02-27 08:17:42
License: 暂无描述

Hugging Face2026-02-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ccmusic-database/acapella

下载链接

链接失效反馈

官方服务：

资源简介：

该原始数据集包含由22位歌手演唱的6首中文流行歌曲片段，共132个音频剪辑。每个片段包括一段歌词和副歌。四位来自中国音乐学院的评委从九个维度（音高、节奏、音域、音色、发音、颤音、动态、呼吸控制和整体表现）对演唱进行评估，使用10分制评分。评估结果记录在Excel表格中，格式为.xls。数据集适用于音频分类、表格问答和摘要生成等任务，特别适合用于声乐分析和基于回归的歌唱评分。

提供机构：

ccmusic-database

原始信息汇总

数据集概述

数据集名称

名称: Acapella Evaluation Dataset
别名: Acapella Evaluation

数据集详细描述

内容: 包含六首普通话流行歌曲的片段，由22位歌手演唱，共计132个音频片段。每个片段包括一段诗句和一段合唱。
评估: 由来自中国音乐学院的四位评委对演唱进行九个维度的评估：音高、节奏、音域、音色、发音、颤音、动态、呼吸控制和整体表现，使用10分制评分。
格式: 音频文件为.wav格式，评估记录为.xls格式的Excel表格。

数据集结构

音频: 采样率为22,050 Hz的音频文件。
评估表格: 包含歌手ID、九个评估维度的分数及整体表现分数。
数据字段: 歌曲、歌手ID、音高、节奏、音域、音色、发音、颤音、动态、呼吸控制和整体表现。

数据集用途

任务: 声乐分析、回归分析的歌唱评分。
适用性: 适用于声乐评估和评分系统的训练数据集。

数据集维护与使用

维护: 通过Git LFS进行管理。
使用示例: 使用datasets库加载数据集，并按歌曲分段处理数据。

数据集创建

采集与标注: 由22位歌手演唱的132个音频片段，由四位评委进行评估。
标注者: 来自中国音乐学院的评委。
数据保护: 隐藏了歌手和评委的姓名。

数据集限制

语言限制: 仅包含普通话歌曲。
数据标记: 未标记声乐的起点。

许可证

类型: MIT License
版权持有者: CCMUSIC

引用信息

bibtex @dataset{zhaorui_liu_2021_5676893, author = {Monan Zhou, Shenyang Xu, Zhaorui Liu, Zhaowen Wang, Feng Yu, Wei Li and Baoqiang Han}, title = {CCMusic: an Open and Diverse Database for Chinese and General Music Information Retrieval Research}, month = {mar}, year = {2024}, publisher = {HuggingFace}, version = {1.2}, url = {https://huggingface.co/ccmusic-database} }

搜集汇总

数据集介绍

构建方式

该数据集的构建基于原始的音频记录和评价表格的整合，原始数据集包含分开的音频文件和评价表格，这限制了数据检索的效率。因此，研究者将音频记录与相应的评价表格相结合，形成了当前的集成版本数据集的默认子集。该数据集包含六个普通话流行歌曲片段，由22位歌手演唱，总共132个音频剪辑，每位歌手的演唱在九个维度上由四位评委进行评价。

特点

数据集的特点在于其结构化数据，包含音频文件（.wav格式，采样率48000Hz）、梅尔频谱图（.jpg格式）、歌手ID，以及九个维度的评价指标（音高、节奏、音域、音色、发音、颤音、动态、呼吸控制和总体表现），所有这些信息以表格的形式组织，方便进行声乐分析和基于回归的歌唱评分。

使用方法

使用该数据集时，用户可以通过HuggingFace的datasets库加载整个数据集。数据集被分为六个部分，每个部分代表一首不同的歌曲。用户可以遍历每个部分的条目，每个条目包括一个歌手的音频记录、歌手ID以及九个维度的评价分数。此数据集适用于声乐分析、歌唱评分等任务，并且可以通过回归分析将音频数据与总体表现分数相关联。

背景与挑战

背景概述

Acapella Evaluation Dataset，源自于中国音乐学院（CCMUSIC）的研究项目，由Zhaorui Liu和Monan Zhou负责初始数据收集与规范化，旨在解决缺乏用于阿卡贝拉评分系统训练数据集的问题。该数据集包含22位歌手演唱的6首普通话流行歌曲片段，总计132段音频。每位歌手的演唱从音高、节奏、音域、音色、发音、颤音、动态、气息控制以及整体表现等九个维度进行评估，评估结果记录在Excel表格中。此数据集已被相关学术论文引用，对音乐语音分析领域产生了显著影响。

当前挑战

该数据集的构建过程中，主要面临的挑战在于原始数据集的音频记录和评估表格分离，导致数据检索效率低下。此外，数据集在解决阿卡贝拉评分领域问题时，面临的挑战包括标注过程中的主观性，以及评分系统的泛化能力。数据集的局限性在于仅包含普通话歌曲，且未标注出声音的起始点。这些因素可能会影响数据集在多语言环境下的适用性和评分系统的准确性。

常用场景

经典使用场景

在音乐信息检索与处理领域，ccmusic-database/acapella数据集的经典使用场景是对独唱音频进行多维度评价分析。该数据集包含了22位歌手演唱的六首普通话流行歌曲片段，每位歌手的演唱从音高、节奏、音域、音色、发音、颤音、动态、呼吸控制以及整体表现等九个维度进行了评分，为研究者提供了丰富的标注信息，从而可以训练模型对歌手的演唱进行量化评估。

衍生相关工作

基于ccmusic-database/acapella数据集，研究者已经开展了一系列相关工作，如基于迁移学习的歌唱音色评价研究。这些衍生工作不仅扩展了数据集的应用范围，也推动了音乐信息处理领域的技术进步。

数据集最近研究