CTIM-Bench

Hugging Face2026-01-27 更新2026-01-28 收录

下载链接：

https://huggingface.co/datasets/CTIM-Gen/CTIM-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

CTIM-Bench 是一个专门用于评估中国传统乐器音乐生成模型的基准数据集，包含500个经过专家验证的高保真音乐样本。该数据集旨在为CTIM-Gen项目提供测试集，其中42.6%的样本来自少数民族乐器（如马头琴、葫芦丝等），展现了中国音乐文化的丰富多样性。数据集内容主要包括音频文件（30秒片段）和测试提示的元数据文件（test_prompts.json），涵盖的乐器有古琴、古筝、马头琴、葫芦丝、琵琶、二胡和扬琴等。数据主要来源于中国音乐网（www.china1901.com），部分补充自Bilibili。此数据集仅限于AI音乐生成领域的学术研究使用，严禁商业用途。

创建时间：

2026-01-26

原始信息汇总

CTIM-Bench 数据集概述

数据集基本信息

数据集名称：CTIM-Bench: Benchmark for Traditional Chinese Music Generation
主要用途：专为评估中国传统乐器音乐生成模型而设计的基准测试数据集，作为CTIM-Gen项目的测试集。
许可协议：cc-by-nc-4.0
标签：benchmark, music-generation, evaluation
规模分类：1G<n<10G

数据内容与规模

样本数量：包含500个经过专家验证的高保真样本。
数据构成：42.6%的样本为少数民族乐器（例如：马头琴、葫芦丝），体现了中国音乐文化的丰富多样性。
乐器种类：古琴、古筝、马头琴、葫芦丝、琵琶、二胡、扬琴。

数据来源与使用政策

主要来源：音频数据主要采集自中国音乐网（http://www.china1901.com/）。
补充来源：少量数据补充自Bilibili（https://www.bilibili.com/）。
使用限制：本数据集仅限用于AI音乐生成领域的学术研究目的。严禁商业用途。下载或使用本数据集即表示您同意这些条款。

文件结构

audio/：存放真实音频文件（30秒片段）。
test_prompts.json：包含提示词和文件引用的元数据文件。

搜集汇总

数据集介绍

构建方式

在传统中国音乐生成领域，高质量评估数据的稀缺性促使CTIM-Bench数据集应运而生。该数据集通过从中国音乐网等权威平台系统采集音频素材，辅以少量来自Bilibili的补充内容，构建了一个包含500个专家验证的高保真样本的精选集合。每个样本均经过专业审核，确保其音乐品质与文化代表性，并统一处理为30秒的音频片段，以支持标准化的模型评估流程。

使用方法

研究人员在使用CTIM-Bench时，可通过加载test_prompts.json文件获取包含提示词和文件引用的元数据，进而访问audio目录中的对应音频文件进行模型测试。该数据集专为学术研究设计，适用于音乐生成模型的性能评估与比较分析，用户需严格遵守仅限非商业用途的规定，以促进人工智能音乐生成领域的科学发展。

背景与挑战

背景概述

在人工智能音乐生成领域，传统中国乐器音乐的数字化建模与生成逐渐成为研究热点，旨在通过计算手段保存与创新民族音乐遗产。CTIM-Bench数据集由CTIM-Gen项目团队创建，作为一个专门针对中国传统乐器音乐生成的基准测试集，其核心研究问题聚焦于评估生成模型在模拟多样民族乐器音色与风格方面的性能。该数据集收录了500个经过专家验证的高保真音频样本，覆盖了古琴、古筝、马头琴、葫芦丝等代表性乐器，其中少数民族乐器占比达42.6%，体现了中国音乐文化的丰富多样性。自推出以来，CTIM-Bench为相关领域提供了标准化的评估框架，推动了民族特色音乐生成技术的发展，并在文化遗产的数字化传承方面展现出重要影响力。

当前挑战

CTIM-Bench数据集所针对的领域问题在于传统中国乐器音乐生成，其挑战主要源于民族乐器音色的复杂性与音乐表达的细腻性，要求生成模型不仅准确复现乐器独特声学特征，还需捕捉音乐中的文化内涵与情感韵味。在数据集构建过程中，团队面临多重挑战：一是高质量音频数据的稀缺性，尤其是少数民族乐器样本的收集与整理需克服资源分散与标准化不足的困难；二是数据标注与专家验证的严谨性要求，必须确保每个样本在乐器类型、演奏风格及音频质量上均达到研究级标准；三是版权与使用规范的严格限制，数据主要来源于中国音乐网等平台，仅限学术研究使用，这在一定程度上制约了数据的广泛共享与应用拓展。

常用场景

经典使用场景

在音乐信息检索与生成领域，CTIM-Bench作为专门针对中国传统乐器音乐的基准测试集，其经典使用场景集中于评估和比较各类音乐生成模型的性能。该数据集通过提供500个经过专家验证的高保真音频样本，为研究者构建了标准化的评估环境，使得不同模型在生成古琴、琵琶、马头琴等传统乐器音乐时的音质、文化保真度和多样性得以量化分析。这一场景不仅推动了生成模型在特定音乐风格上的优化，也为跨文化音乐计算研究提供了关键数据支撑。

解决学术问题

CTIM-Bench主要解决了音乐生成研究中缺乏针对非西方音乐体系的标准化评估难题。传统音乐生成基准往往偏向西方乐器，而该数据集通过涵盖42.6%的少数民族乐器样本，如葫芦丝、马头琴等，填补了多元文化音乐表征的学术空白。它在音色建模、旋律文化适配性以及少样本乐器生成等关键问题上提供了验证平台，促进了音乐人工智能在文化多样性方面的理论发展，对民族音乐学的数字化保护与创新具有深远意义。

实际应用

在实际应用层面，CTIM-Bench为智能音乐创作工具、数字文化遗产保护系统以及音乐教育平台提供了核心测试标准。基于该数据集的评估结果，开发者能够优化生成模型，使其更准确地模拟二胡、扬琴等传统乐器的演奏特性，进而应用于影视配乐、互动式音乐教学软件或虚拟民族乐团构建。这些应用不仅提升了音乐生成技术的实用性，也助力中国传统音乐在数字时代的传播与复兴。

数据集最近研究