five

ccmusic-database/CNPM|中国传统音乐数据集|音阶分类数据集

收藏
hugging_face2024-07-14 更新2024-03-04 收录
中国传统音乐
音阶分类
下载链接:
https://hf-mirror.com/datasets/ccmusic-database/CNPM
下载链接
链接失效反馈
资源简介:
该数据集包含287个音频录音及其注释,涵盖了宫、商、角、徵、羽五种中国音乐调式。音频主要以五声音阶为主,部分为六声音阶和七声音阶。数据集的结构包括音频文件、梅尔频谱图、系统、主音、调式样式、调式类型、调式名称和音频长度等信息。数据集的创建目的是填补中国民族五声调式数据集的空白,并支持音乐信息检索和音频分类任务。数据集的使用涉及从音乐平台搜索和下载部分音频文件。

The dataset includes 287 audio recordings and annotations of five modes of Chinese music, encompassing the Gong, Shang, Jue, Zhi, and Yu modes. The musical pieces are mostly composed in pentatonic scales, with some being hexatonic and heptatonic scales. The dataset structure includes audio files, mel spectrograms, system, tonic, pattern, type, mode name, and audio length. The dataset was created to fill the gap in datasets for Chinese National Pentatonic Mode and supports music information retrieval and audio classification tasks. Usage of the dataset involves searching and downloading some audio files from music platforms.
提供机构:
ccmusic-database
原始信息汇总

数据集卡片:中国民族五声音阶数据集

数据集描述

  • 数据集名称: 中国民族五声音阶数据集 (Chinese National Pentatonic Mode Dataset)
  • 数据集类型: 音频分类
  • 语言: 中文, 英文
  • 标签: 音乐, 艺术
  • 数据量: n<1K

数据集概述

原始数据集包括中国音乐的五种模式的音频录音和标注,涵盖宫、商、角、徵、羽五种模式。收集的音乐作品大多采用五声音阶(五音),其中一些是六声音阶(六音)和七声音阶(七音)。总录音数量为287个,平均时长为179.5秒。

数据集结构

数据集中的每个数据条目包含七列:

  1. 音频录音(.wav格式,采样率22,050 Hz)
  2. 作品名称
  3. 艺术家
  4. 系统
  5. 主音
  6. 模式
  7. 类型
  8. 模式的额外中文名称
  9. 音频时长(秒)

支持的任务和排行榜

  • 任务: 音乐信息检索 (MIR), 音频分类

数据实例

  • 格式: .zip(.wav), .csv

数据字段

  • 模式类型
  • 名称
  • 表演者
  • 专辑名称
  • 民族模式名称
  • 同宫系统
  • 音频链接

数据分割

  • 训练集 (train)

数据集创建

数据集来源

  • 数据收集和规范化: Weixin Ren, Mingjin Che, Zhaowen Wang, Qinyu Li, Jiaye Hu, Fan Xia, Wei Li, Monan Zhou
  • 语言生产者: FD-LAMT, CCOM, SCCM的教师和学生

标注过程

基于结合人工标注和计算机的工作理念,该数据库收集并标注了五种模式(包括五音、六音和七音)的音频。同时,对判断中国民族五声音阶进行了详细分析,并找到了应用场景和技术模型,可以为中国民族音乐特征的分析和检索提供原始数据。

标注者

FD-LAMT, CCOM, SCCM的教师和学生

使用数据集的注意事项

社会影响

促进音乐AI产业的发展

偏见讨论

仅适用于传统中国乐器

其他已知限制

仅适用于五声音阶

附加信息

数据集策展人

Weixin Ren, Mingjin Che, Zhaowen Wang, Qinyu Li, Jiaye Hu, Fan Xia, Wei Li.

许可信息

MIT许可证

引用信息

bibtex @dataset{zhaorui_liu_2021_5676893, author = {Monan Zhou, Shenyang Xu, Zhaorui Liu, Zhaowen Wang, Feng Yu, Wei Li and Baoqiang Han}, title = {CCMusic: an Open and Diverse Database for Chinese and General Music Information Retrieval Research}, month = {mar}, year = {2024}, publisher = {HuggingFace}, version = {1.2}, url = {https://huggingface.co/ccmusic-database} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自中国民族五声调式(Chinese National Pentatonic Mode),结合了人工标注与计算机辅助方法构建。数据集收集并标注了五种调式(包括五声、六声和七声)的音频,涵盖了‘宫、商、角、徵、羽’五种基本音调。通过详细分析中国民族五声调式的判断标准,数据集识别了应用场景和技术模型,为分析和检索中国民族音乐特征提供了原始数据。
特点
此数据集的显著特点在于其多标签性质,涵盖了音频、音高、调式样式、调式种类等多个维度。数据结构包括音频文件、梅尔频谱图、同宫系统、主音音高、调式样式、调式种类、调式名称和音频长度等字段。此外,数据集还提供了详细的标注信息,如同宫系统和调式种类的标签映射,便于用户进行深入分析和应用。
使用方法
用户可通过HuggingFace的datasets库加载该数据集,使用Python代码进行数据访问和处理。数据集提供了训练、验证和测试三个分割,用户可根据具体任务需求进行自定义分割。数据集的结构和标注信息可通过提供的链接进行预览,便于用户理解和应用。此外,数据集的维护和更新通过Git进行管理,确保数据的持续可用性和准确性。
背景与挑战
背景概述
中国民族五声调式数据集(CNPM)由复旦大学(FD-LAMT)、中央音乐学院(CCOM)和中国音乐学院(SCCM)的研究人员共同创建,旨在填补中国民族五声调式数据集的空白。该数据集结合了人工标注与计算机辅助方法,收集并标注了包括五声、六声和七声在内的五种调式音频,涵盖了‘宫、商、角、徵、羽’五种基本音阶。CNPM数据集不仅提供了详细的调式判断分析,还识别了应用场景和技术模型,为研究中国民族音乐特征的分析和检索提供了原始数据支持。
当前挑战
CNPM数据集在构建过程中面临多重挑战。首先,由于数据的多标签特性,难以在分割过程中保持所有标签列的完整性,因此仅提供单一的训练集分割。其次,数据集的版权限制导致部分音频无法直接发布,用户需根据歌曲标题、艺术家和专辑名称从音乐平台自行搜索和下载。此外,数据集的标注过程依赖于人工与计算机结合的方法,确保标注的准确性和一致性是一个持续的挑战。最后,数据集的应用场景和模型识别需要不断更新和优化,以适应不断发展的音乐信息检索技术。
常用场景
经典使用场景
在音乐信息检索领域,中国民族五声调式数据集(CNPM)被广泛用于音频分类任务。该数据集通过收集和标注五种调式(包括五声、六声和七声)的音频数据,为研究人员提供了丰富的音乐特征分析资源。其经典使用场景包括音乐风格识别、调式分类以及音乐情感分析等,这些任务均依赖于数据集中详细的音频特征和调式标签。
解决学术问题
CNPM数据集解决了中国民族音乐研究中长期存在的数据匮乏问题。通过提供高质量的音频数据和详细的调式标签,该数据集为学术界提供了一个标准化的研究平台,促进了音乐信息检索和计算音乐学的发展。其意义在于推动了基于数据驱动的音乐分析方法,为传统音乐的数字化保护和传承提供了技术支持。
衍生相关工作
CNPM数据集的发布催生了一系列相关研究工作,包括基于深度学习的音乐风格分类模型、音乐情感识别算法以及音乐生成系统。这些研究不仅提升了音乐信息检索的准确性和效率,还为音乐创作和表演提供了新的技术手段。例如,有研究利用该数据集训练生成对抗网络(GAN),以生成具有特定调式特征的音乐片段。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录