ccmusic-database/CTIS

Name: ccmusic-database/CTIS
Creator: ccmusic-database
Published: 2026-02-27 08:32:25
License: 暂无描述

Hugging Face2026-02-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ccmusic-database/CTIS

下载链接

链接失效反馈

官方服务：

资源简介：

Chinese Traditional Instrument Sound Dataset（CTIS）包含287种中国传统乐器、改良中国乐器和少数民族乐器的录音，其中一些乐器对大多数中国人来说较为罕见。数据集经过清理，最终包含200种乐器的3974个音频片段，每个乐器平均有约20个音频片段。数据集的音频文件为.wav格式，采样率为22050Hz，标签列包含200个类别，对应乐器的拼音名称，另外还有一列是乐器的中文名称。数据集可用于中国乐器识别或乐器声学分析等任务。

The Chinese Traditional Instrument Sound Dataset (CTIS) contains recordings from 287 varieties of Chinese traditional instruments, modified instruments, and instruments from ethnic minority groups. After data cleaning, the dataset comprises 3,974 audio clips of 200 types of instruments. The data structure includes audio files in .wav format, mel spectrograms, and labels corresponding to the instrument names in Chinese pinyin and Chinese characters. The dataset is intended for tasks such as Chinese instrument recognition and acoustic analysis. It is curated to address the lack of datasets for Chinese traditional musical instruments and is part of a broader effort to digitize traditional Chinese instruments.

提供机构：

ccmusic-database

原始信息汇总

数据集概述

数据集描述

名称: Chinese Traditional Instrument Sound Dataset (CTIS)
任务类别: 音频分类
语言: 中文, 英文
标签: 音乐, 艺术
大小: 1K<n<10K
许可证: MIT

数据集摘要

原始数据: 包含287种中国传统乐器、改良乐器及少数民族乐器的录音。
清洗后数据: 包含200种中国传统乐器的录音，共3,974个音频片段，平均每种乐器约20个音频片段。
数据结构: 包含三列，分别是音频文件（.wav格式，22,050 Hz采样率）、标签（200个类别，对应乐器名称的拼音）和中文乐器名称。

支持的任务

音频分类: 用于中国乐器识别或乐器声学分析。

数据集结构

音频文件: .wav格式，22,050 Hz采样率
标签: 200个类别，对应乐器名称的拼音
中文乐器名称: 字符串格式

数据实例

格式: .zip（包含.wav文件）和.csv文件

数据字段

乐器种类: 最多287种中国传统乐器、改良乐器及少数民族乐器

数据分割

乐器: 乐器分类
打击乐器: 打击乐器分类

数据集创建

动机: 缺乏中国传统乐器的数据集
数据收集与标准化: 由Zhaorui Liu和Monan Zhou进行
语言生产者: CCMUSIC的学生
注释过程: 构建高质量音乐声数据库，考虑录音环境、表演者、样本内容、注释标准和录音及表演质量。
注释者: CCMUSIC的学生

使用数据集的考虑

社会影响: 推进中国传统乐器的数字化进程
偏见讨论: 仅限于中国传统乐器
已知限制: 样本不平衡

额外信息

数据集策展人: Zijin Li
评估: 相关研究论文和会议论文
许可证信息: MIT许可证
引用信息: bibtex @dataset{zhaorui_liu_2021_5676893, author = {Monan Zhou, Shenyang Xu, Zhaorui Liu, Zhaowen Wang, Feng Yu, Wei Li and Baoqiang Han}, title = {CCMusic: an Open and Diverse Database for Chinese and General Music Information Retrieval Research}, month = {mar}, year = {2024}, publisher = {HuggingFace}, version = {1.2}, url = {https://huggingface.co/ccmusic-database} }

贡献

提供数据集: 为中国传统乐器声音提供数据集

搜集汇总

数据集介绍

构建方式

该数据集源自[中国传统乐器音响数据库](https://ccmusic-database.github.io/en/database/ctis.html)，经过数据清洗和整合，剔除了无明确乐器标签的录音，最终包含来自200多种中国传统乐器、改良乐器及少数民族乐器的3,974个音频片段。每种乐器平均有约20个音频样本。数据集结构包括音频文件（.wav格式，采样率为22,050 Hz）、标签（对应乐器名称的拼音）及中文乐器名称列。

使用方法

用户可通过`datasets`库中的`load_dataset`函数加载CTIS数据集，并指定`split='train'`以获取训练集。数据集适用于中国乐器识别和乐器声学分析等任务。例如，用户可以遍历数据集中的每个项目，打印其内容以进行进一步分析或模型训练。

背景与挑战

背景概述

在中华文化的丰富宝库中，传统乐器以其独特的音色和深厚的文化底蕴占据着重要地位。然而，长期以来，针对中国传统乐器的研究与应用缺乏系统性的数据支持。为此，由Zhaorui Liu和Monan Zhou等研究人员主导，于2024年创建了CTIS数据集，旨在填补这一领域的空白。该数据集收录了超过200种中国传统乐器、改良乐器及少数民族乐器的录音，不仅涵盖了常见乐器，还包括一些鲜为人知的珍稀乐器。这一数据集的构建，不仅为音乐信息检索（MIR）和音频分类等任务提供了宝贵的资源，也极大地推动了传统乐器数字化进程的研究与应用。

当前挑战

尽管CTIS数据集在丰富性和多样性上取得了显著成就，但其构建过程中仍面临诸多挑战。首先，数据收集与标准化过程中，如何确保每种乐器的录音质量与一致性是一个复杂的问题。其次，由于部分乐器极为罕见，获取高质量的录音样本成为一大难题。此外，数据集中的样本不平衡问题也亟待解决，以确保在实际应用中能够公平地代表每种乐器的特性。最后，如何有效地标注和分类这些乐器，以适应不同的研究需求，也是该数据集未来需要克服的挑战。

常用场景

经典使用场景

在音乐信息检索领域，CTIS数据集的经典使用场景主要集中在传统中国乐器的分类与识别。该数据集通过收录超过200种中国传统乐器及其变种的音频样本，为研究人员提供了一个丰富的资源库，用于开发和验证音频分类算法。这些算法不仅能够识别常见的乐器，还能处理一些罕见或少数民族的乐器，从而拓宽了音乐信息检索的应用范围。

解决学术问题

CTIS数据集解决了传统中国乐器数据稀缺的问题，填补了学术研究中的一个重要空白。通过提供高质量的音频数据，该数据集促进了音乐信息检索（MIR）技术的发展，特别是在中国传统音乐领域的应用。这不仅有助于提升乐器识别的准确性，还为音乐学研究提供了新的工具和方法，推动了传统音乐文化的数字化进程。

实际应用

在实际应用中，CTIS数据集被广泛用于音乐教育、文化遗产保护和音乐创作等领域。例如，音乐教育机构可以利用该数据集开发互动教学工具，帮助学生更好地理解和识别各种传统乐器。文化遗产保护机构则可以借助这些数据进行乐器声音的数字化存档，确保传统音乐的传承。此外，音乐创作者也可以从中获取灵感，创作出融合传统与现代元素的音乐作品。

数据集最近研究