five

ccmusic-database/acapella|音乐评估数据集|音频分析数据集

收藏
hugging_face2024-07-14 更新2024-03-04 收录
音乐评估
音频分析
下载链接:
https://hf-mirror.com/datasets/ccmusic-database/acapella
下载链接
链接失效反馈
资源简介:
该原始数据集包含由22位歌手演唱的6首中文流行歌曲片段,共132个音频剪辑。每个片段包括一段歌词和副歌。四位来自中国音乐学院的评委从九个维度(音高、节奏、音域、音色、发音、颤音、动态、呼吸控制和整体表现)对演唱进行评估,使用10分制评分。评估结果记录在Excel表格中,格式为.xls。数据集适用于音频分类、表格问答和摘要生成等任务,特别适合用于声乐分析和基于回归的歌唱评分。

该原始数据集包含由22位歌手演唱的6首中文流行歌曲片段,共132个音频剪辑。每个片段包括一段歌词和副歌。四位来自中国音乐学院的评委从九个维度(音高、节奏、音域、音色、发音、颤音、动态、呼吸控制和整体表现)对演唱进行评估,使用10分制评分。评估结果记录在Excel表格中,格式为.xls。数据集适用于音频分类、表格问答和摘要生成等任务,特别适合用于声乐分析和基于回归的歌唱评分。
提供机构:
ccmusic-database
原始信息汇总

数据集概述

数据集名称

  • 名称: Acapella Evaluation Dataset
  • 别名: Acapella Evaluation

数据集详细描述

  • 内容: 包含六首普通话流行歌曲的片段,由22位歌手演唱,共计132个音频片段。每个片段包括一段诗句和一段合唱。
  • 评估: 由来自中国音乐学院的四位评委对演唱进行九个维度的评估:音高、节奏、音域、音色、发音、颤音、动态、呼吸控制和整体表现,使用10分制评分。
  • 格式: 音频文件为.wav格式,评估记录为.xls格式的Excel表格。

数据集结构

  • 音频: 采样率为22,050 Hz的音频文件。
  • 评估表格: 包含歌手ID、九个评估维度的分数及整体表现分数。
  • 数据字段: 歌曲、歌手ID、音高、节奏、音域、音色、发音、颤音、动态、呼吸控制和整体表现。

数据集用途

  • 任务: 声乐分析、回归分析的歌唱评分。
  • 适用性: 适用于声乐评估和评分系统的训练数据集。

数据集维护与使用

  • 维护: 通过Git LFS进行管理。
  • 使用示例: 使用datasets库加载数据集,并按歌曲分段处理数据。

数据集创建

  • 采集与标注: 由22位歌手演唱的132个音频片段,由四位评委进行评估。
  • 标注者: 来自中国音乐学院的评委。
  • 数据保护: 隐藏了歌手和评委的姓名。

数据集限制

  • 语言限制: 仅包含普通话歌曲。
  • 数据标记: 未标记声乐的起点。

许可证

  • 类型: MIT License
  • 版权持有者: CCMUSIC

引用信息

bibtex @dataset{zhaorui_liu_2021_5676893, author = {Monan Zhou, Shenyang Xu, Zhaorui Liu, Zhaowen Wang, Feng Yu, Wei Li and Baoqiang Han}, title = {CCMusic: an Open and Diverse Database for Chinese and General Music Information Retrieval Research}, month = {mar}, year = {2024}, publisher = {HuggingFace}, version = {1.2}, url = {https://huggingface.co/ccmusic-database} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于原始的音频记录和评价表格的整合,原始数据集包含分开的音频文件和评价表格,这限制了数据检索的效率。因此,研究者将音频记录与相应的评价表格相结合,形成了当前的集成版本数据集的默认子集。该数据集包含六个普通话流行歌曲片段,由22位歌手演唱,总共132个音频剪辑,每位歌手的演唱在九个维度上由四位评委进行评价。
特点
数据集的特点在于其结构化数据,包含音频文件(.wav格式,采样率48000Hz)、梅尔频谱图(.jpg格式)、歌手ID,以及九个维度的评价指标(音高、节奏、音域、音色、发音、颤音、动态、呼吸控制和总体表现),所有这些信息以表格的形式组织,方便进行声乐分析和基于回归的歌唱评分。
使用方法
使用该数据集时,用户可以通过HuggingFace的datasets库加载整个数据集。数据集被分为六个部分,每个部分代表一首不同的歌曲。用户可以遍历每个部分的条目,每个条目包括一个歌手的音频记录、歌手ID以及九个维度的评价分数。此数据集适用于声乐分析、歌唱评分等任务,并且可以通过回归分析将音频数据与总体表现分数相关联。
背景与挑战
背景概述
Acapella Evaluation Dataset,源自于中国音乐学院(CCMUSIC)的研究项目,由Zhaorui Liu和Monan Zhou负责初始数据收集与规范化,旨在解决缺乏用于阿卡贝拉评分系统训练数据集的问题。该数据集包含22位歌手演唱的6首普通话流行歌曲片段,总计132段音频。每位歌手的演唱从音高、节奏、音域、音色、发音、颤音、动态、气息控制以及整体表现等九个维度进行评估,评估结果记录在Excel表格中。此数据集已被相关学术论文引用,对音乐语音分析领域产生了显著影响。
当前挑战
该数据集的构建过程中,主要面临的挑战在于原始数据集的音频记录和评估表格分离,导致数据检索效率低下。此外,数据集在解决阿卡贝拉评分领域问题时,面临的挑战包括标注过程中的主观性,以及评分系统的泛化能力。数据集的局限性在于仅包含普通话歌曲,且未标注出声音的起始点。这些因素可能会影响数据集在多语言环境下的适用性和评分系统的准确性。
常用场景
经典使用场景
在音乐信息检索与处理领域,ccmusic-database/acapella数据集的经典使用场景是对独唱音频进行多维度评价分析。该数据集包含了22位歌手演唱的六首普通话流行歌曲片段,每位歌手的演唱从音高、节奏、音域、音色、发音、颤音、动态、呼吸控制以及整体表现等九个维度进行了评分,为研究者提供了丰富的标注信息,从而可以训练模型对歌手的演唱进行量化评估。
衍生相关工作
基于ccmusic-database/acapella数据集,研究者已经开展了一系列相关工作,如基于迁移学习的歌唱音色评价研究。这些衍生工作不仅扩展了数据集的应用范围,也推动了音乐信息处理领域的技术进步。
数据集最近研究
最新研究方向
在音频处理与音乐分析领域,ccmusic-database/acapella数据集的最新研究方向主要集中在基于深度学习的声乐分析与评分系统。该数据集整合了音频文件与专家评分,为研究音高、节奏、音域、音色、发音、颤音、动态、气息控制以及整体表现等维度提供了丰富的标注数据。近期研究致力于开发更为精确的声乐评分模型,以提升音乐教育、歌手训练及音乐制作的质量。通过转移学习等技术,研究者在音色评估方面取得了显著进展,为相关应用提供了强有力的数据支撑。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Cultural Dimensions Dataset

该数据集包含了霍夫斯泰德文化维度理论(Hofstede's Cultural Dimensions Theory)的相关数据,涵盖了多个国家和地区的文化维度评分,如权力距离、个人主义与集体主义、男性化与女性化、不确定性规避、长期取向与短期取向等。这些数据有助于研究不同文化背景下的行为模式和价值观。

geerthofstede.com 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录