five

Instrumental-Dataset

收藏
github2026-04-22 更新2026-04-23 收录
下载链接:
https://github.com/evamooreshtg58-beep/Instrumental-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于训练纯器乐AI源追踪模型的大规模、多源数据集,旨在促进区分人类创作音乐与AI生成内容的研究,以及识别音频片段背后的特定生成模型。数据集包含7,045个音频片段(每个30秒),涵盖4个来源(人类、MusicGen、Suno、Doubao)和8种以上的音乐风格。

This is a large-scale, multi-source dataset for training pure instrumental AI source tracing models, aimed at advancing research on distinguishing human-composed music from AI-generated content, as well as identifying the specific generative model behind each audio clip. The dataset contains 7,045 audio clips, each 30 seconds in duration, covering four sources (Human, MusicGen, Suno, Doubao) and over 8 musical genres.
创建时间:
2026-04-22
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Instrumental-Dataset (AI Music Detection Dataset)
  • 主要用途: 用于训练纯器乐音乐AI溯源模型,支持区分人类创作与AI生成音乐的研究,以及识别音频片段的具体生成模型。
  • 许可协议: CC BY-NC 4.0 (https://creativecommons.org/licenses/by-nc/4.0/)
  • 发布年份: 2026
  • 作者: Wang, Kehan
  • 联系方式: 2276935971@qq.com
  • 发布地址: https://github.com/evamooreshtg58-beep/Instrumental-Dataset

数据规模与构成

  • 总音频片段数: 7,045段(压缩包内实际文件数为7,051,包含元数据文件)
  • 音频时长: 每段音频统一为30秒(经过截取或填充处理)
  • 数据来源: 共4种
    • 人类: 1,417段,源自FMA Medium(纯器乐)
    • AI (MusicGen): 1,412段,来自Meta的MusicGen
    • AI (Suno): 2,808段,来自Suno API
    • AI (Doubao): 1,413段,来自豆包
  • 音乐风格: 人类子集覆盖布鲁斯、古典、爵士、电子等8种以上器乐风格。
  • 音频格式: WAV或MP3格式。
  • 采样率: 不同来源采样率不同(人类: 44.1 kHz; MusicGen: 32.0 kHz; Suno: 48.0 kHz; Doubao: 44.1 kHz)。

数据集结构

数据集压缩包 (AI_Music_Detection_Dataset.tar.gz,约2 GB) 解压后位于 release_dataset/ 目录下,结构如下:

  • file_list.csv: 包含所有音频片段的元数据文件。
  • human/: 存放1,417首真实器乐作品,按音乐风格(如blues, classical, electronic等)分子目录。
  • ai/: 存放AI生成音频,按模型分子目录 (musicgen/, suno/, doubao/)。
  • README.md: 说明文件。

元数据文件 (file_list.csv) 列说明:

  • path: 文件的绝对或相对路径。
  • is_ai: 二分类标签(0 = 人类,1 = AI)。
  • source: 类别标签(Human, MusicGen, Suno, Doubao)。
  • style: 音乐风格(例如 blues, classical)。

下载与使用

  • 完整数据集下载: 需使用Git LFS。
    1. 安装Git LFS (https://git-lfs.com/)。
    2. 克隆仓库:git lfs install 后执行 git clone https://github.com/evamooreshtg58-beep/Instrumental-Dataset.git
    3. 解压数据:tar -xzvf release_dataset/AI_Music_Detection_Dataset.tar.gz
  • 仅下载元数据: 可直接从仓库页面下载 file_list.csv 文件。

预期研究场景

  1. 二分类检测: 区分人类音乐与AI生成音乐。
  2. 多分类溯源: 识别音频片段出自哪个具体AI模型(MusicGen、Suno或豆包)。
  3. 特征分析: 探究节奏规律性、频谱伪影或深度伪造痕迹。
  4. 基准测试: 评估检测模型在不同生成架构上的鲁棒性。

许可与引用

  • 人类子集 (FMA): 源自Free Music Archive,遵循CC BY-NC 4.0许可。
  • AI生成子集: 由作者生成,仅供研究使用,不对模型输出主张版权。
  • 数据集整体: 基于CC BY-NC 4.0协议发布,限非商业学术用途。

引用格式:

@misc{Wang2026AIMusicDataset, author = {Wang, Kehan}, title = {AI Music Detection Dataset: A Multi-Source Benchmark for Distinguishing Human and AI-Generated Music}, year = {2026}, publisher = {GitHub}, howpublished = {url{https://github.com/evamooreshtg58-beep/Instrumental-Dataset}} }

搜集汇总
数据集介绍
main_image_url
构建方式
在音乐信息检索与人工智能生成内容检测领域,Instrumental-Dataset的构建体现了严谨的数据工程方法。该数据集整合了人类创作与AI生成两类音乐源,人类部分精选自Free Music Archive的器乐作品,涵盖布鲁斯、古典、爵士等多种风格;AI部分则通过Meta的MusicGen、Suno及豆包三个主流生成模型合成。所有音频均经过标准化处理,统一截取或填充至30秒长度,并以WAV或MP3格式保存,确保了时间维度的对齐与格式的一致性。数据集通过元数据文件系统化标注了每条音频的路径、来源标签及音乐风格,形成了结构清晰、便于机器读取的多源音乐语料库。
特点
Instrumental-Dataset的显著特点在于其规模性与多样性。数据集共包含7,045段音频,均衡覆盖人类与三种AI生成模型的输出,为模型检测与溯源提供了充分的样本基础。音频来源的异构性体现在采样率的差异上,人类音频为44.1kHz,MusicGen为32kHz,Suno为48kHz,这种多样性有助于研究不同技术特征对检测算法的影响。此外,数据集在音乐风格上具有广泛代表性,人类子集包含超过八种器乐流派,AI生成部分亦在多样提示下合成,共同构成了一个能够评估模型跨风格泛化能力的基准测试平台。
使用方法
该数据集为AI生成音乐检测研究提供了标准化的使用框架。用户可通过Git LFS克隆仓库并解压压缩包获取完整数据,或直接下载元数据文件进行初步分析。数据集支持二分类任务,即区分人类与AI生成音乐;亦支持多分类任务,用于追溯音频的具体生成模型。研究者可基于提供的路径与标签信息,提取频谱、节奏等特征,训练或评估检测模型的性能。数据集适用于学术场景下的特征分析、模型鲁棒性测试及生成音乐指纹研究,使用时需遵循CC BY-NC 4.0协议,并按规定格式引用以保障学术规范性。
背景与挑战
背景概述
随着生成式人工智能技术的迅猛发展,音乐生成模型如MusicGen、Suno和豆包等已能创作出高度逼真的器乐作品,这为音乐创作领域带来革新,同时也引发了关于内容真实性、版权归属及艺术价值评估的深刻议题。在此背景下,由研究者王可汗于2026年构建的Instrumental-Dataset应运而生,旨在为AI生成音乐检测与模型溯源研究提供基准数据支持。该数据集精心整合了来自人类创作的纯器乐作品及三大主流AI模型的生成样本,共计逾七千段音频,覆盖多元音乐风格,其核心研究聚焦于开发鲁棒算法以精准区分人机创作源头,并追溯具体生成模型,对推动音乐信息检索、数字媒体取证及人工智能伦理等交叉领域的发展具有显著影响力。
当前挑战
在AI生成音乐检测这一新兴领域,核心挑战在于模型生成的音频在频谱特征、和声结构及节奏模式上日益逼近人类创作,使得传统声学特征的有效性受到局限,亟需探索更具判别力的深层表征以应对快速演进的生成技术。数据集构建过程中亦面临多重困难:其一,需确保人类音乐子集在风格、音质及版权上的多样性与合法性,依赖Free Music Archive等开放资源进行筛选与标注;其二,AI生成样本的采集需覆盖不同模型架构与参数设置,以反映技术生态的异质性,同时统一音频时长、采样率等格式的过程可能引入信息损失或偏差;其三,多源数据的整合与标注要求严谨的元数据管理,以支撑细粒度的溯源任务,这些挑战共同塑造了数据集的复杂性与研究价值。
常用场景
经典使用场景
在音乐信息检索与音频取证领域,Instrumental-Dataset 的经典应用场景在于为 AI 生成音乐的检测与溯源研究提供标准化基准。该数据集通过整合人类创作的纯器乐作品与来自 MusicGen、Suno 及豆包等主流生成模型的合成音频,构建了一个涵盖多元风格的大规模对比语料库。研究者可借此训练分类模型,系统性地探索人类音乐与 AI 生成内容在节奏、和声及频谱特征上的细微差异,从而推动音乐真实性鉴别的算法发展。
衍生相关工作
围绕 Instrumental-Dataset 已衍生出一系列经典研究工作,主要集中在音频深度伪造检测与多源音乐分类方向。例如,研究者利用其多模型溯源标签开发了端到端的神经网络架构,实现了对 MusicGen、Suno 等生成模型的高精度识别;另有工作基于该数据集的频谱特征开展了对抗性样本研究,以评估检测系统的鲁棒性。这些成果不仅丰富了音乐信息检索的学术谱系,也为后续构建更泛化、更稳健的 AI 音乐检测框架奠定了坚实基础。
数据集最近研究
最新研究方向
在人工智能生成内容迅猛发展的背景下,音乐领域的深度伪造检测已成为学术与产业共同关注的前沿议题。Instrumental-Dataset作为一个专为AI音乐检测与模型溯源设计的大规模多源数据集,其最新研究聚焦于开发鲁棒性更强的跨模型泛化检测算法。学者们正利用该数据集探究不同生成模型(如MusicGen、Suno、豆包)在频谱特征、节奏模式及和声结构上遗留的细微伪影,旨在构建能够适应新兴生成技术的通用检测框架。这些研究不仅响应了数字内容真实性认证的迫切需求,也为音乐版权保护与创作伦理提供了关键的技术支撑,推动了音频取证领域向更精细化的模型溯源方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作