five

artifactbench

收藏
Hugging Face2026-04-17 更新2026-04-18 收录
下载链接:
https://huggingface.co/datasets/intrect/artifactbench
下载链接
链接失效反馈
官方服务:
资源简介:
ArtifactBench v1 是一个用于 AI 生成音乐检测的多生成器评估基准数据集,涵盖 22 种 AI 生成器和 6 种真实音乐来源。数据集包含 8,766 条音轨,其中 AI 生成音乐和真实音乐各占 4,383 条,保持 1:1 的平衡比例。AI 音乐生成器包括 MusicGen、Stable Audio、Suno v3/v3.5/v4、Udio、Riffusion、DiffRhythm、Yue、Chirp v2/v3/v3.5 等。真实音乐来源包括 SONICS、MoM、FMA 和 YouTube。数据格式方面,AI 音轨以 Parquet 格式存储(音频字节嵌入),真实音轨以 CSV 格式存储(提供 YouTube ID 供用户下载)。该数据集旨在评估模型在多样化生成器上的泛化能力,适用于音频分类、AI 音乐检测和法证分析等任务。
创建时间:
2026-04-17
原始信息汇总

ArtifactBench v1 — AI-Generated Music Detection Benchmark 数据集概述

数据集基本信息

  • 许可证:CC BY-NC 4.0
  • 任务类别:音频分类
  • 标签:AI音乐检测、基准测试、取证、音频
  • 语言:英语
  • 数据规模:1K<n<10K

数据集描述

  • 总音轨数:8,766条(AI生成音轨4,383条,真实音乐音轨4,383条,1:1平衡)
  • AI生成器:22个(包括MusicGen、Stable Audio、Suno v3/v3.5/v4、Udio、Riffusion、DiffRhythm、Yue、Chirp v2/v3/v3.5等)
  • 真实音乐来源:6个(SONICS、MoM、FMA、YouTube)
  • 数据格式:AI音轨以Parquet格式存储(内嵌音频字节),真实音轨以CSV格式存储(提供YouTube ID供用户下载)

动机与目标

现有基准测试(如SONICS涵盖5个生成器,MoM涵盖6个生成器)仅测量分布内性能。在这些基准上报告高F1分数的模型在分布外生成器上表现严重下降。ArtifactBench旨在评估对部署至关重要的能力:跨多样化生成器的泛化性能。

完整性检查协议

  • 真实来源:假阳性率(FPR)≤ 5%
  • AI来源:真阳性率(TPR)≥ 90%(Stable Audio要求TPR ≥ 60%)
  • 编解码器不变性:平均Δ ≤ 0.15,最大Δ ≤ 0.35

基准测试结果

模型 参数量 F1分数 失败项 Suno v4 TPR 真实FPR
ArtifactNet v9.4 4.2M 0.983 4/28 98% 1.5%
CLAM (MoM) 194M 0.824 16/28 78% 70.5%
SpecTTTra 19M 0.766 23/28 55% 21.4%

使用方式

python from artifactbench.bench import main

python -m artifactbench.bench --model artifactnet --manifest artifactbench_v1_manifest.json

按来源细分(v1.0.1版本)

  • AI生成音轨来源:共22个生成器,涉及aime_musicgen_large、aime_musicgen_medium、aime_musicgen_small、aime_riffusion、aime_stable_audio_v1、aime_stable_audio_v2、aime_suno_v3、aime_suno_v35、aime_udio、mom_diffrythm、mom_riffusion、mom_udio、mom_yue、sonics_chirp-v2-xxl-alpha、sonics_chirp-v3、sonics_chirp-v3.5、sonics_udio-120s、sonics_udio-30s、suno_cdn_latest、suno_extra、udio_cdn_latest、udio_extra。
  • 真实音轨来源:共6个来源,包括sonics_real、mom_real、fma_hardneg、mom_extra_real、mom_real_wav、youtube_hardneg。
  • 总计:28个来源,6,200条音轨,其中2,280条用于测试。真实来源音轨共1,800条,旨在支持跨不同编解码器和制作条件的严格假阳性率估计。

文件列表

  • artifactbench_v1_manifest.json:包含bench_origin标签的音轨清单。
  • metadata.json:数据集统计信息和生成器列表。

引用

bibtex @article{oh2026artifactnet, title={ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics}, author={Oh, Heewon}, year={2026} }

搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能生成音乐检测领域,ArtifactBench v1 数据集通过精心设计的构建策略,实现了对多源生成器的全面覆盖。该数据集整合了来自22种不同AI音乐生成器的4,383条AI生成音轨,并匹配了同等数量的真实音乐样本,确保了类别平衡。AI音轨以Parquet格式存储,其中嵌入了音频字节数据,而真实音轨则通过CSV文件提供YouTube标识符,便于用户按需下载。数据来源广泛,包括SONICS、MoM、FMA及YouTube等六个真实音乐库,旨在模拟现实世界中的多样化音频条件。
特点
ArtifactBench v1 的显著特点在于其卓越的泛化评估能力,突破了传统基准仅关注分布内性能的局限。数据集涵盖了从MusicGen、Stable Audio到Suno、Udio等前沿生成器,提供了丰富的跨生成器测试场景。通过引入严格的合理性检查协议,如控制真实源的误报率不超过5%,并对AI源的检测率设定高阈值,确保了评估结果的可靠性。此外,数据集特别强调了编码不变性要求,以验证模型在不同音频压缩条件下的稳定性。
使用方法
使用ArtifactBench v1 时,研究人员可通过其提供的标准化接口便捷地进行模型评估。数据集附带了详细的轨道清单和元数据文件,支持用户快速加载并划分测试集。基准测试代码库允许直接调用预定义的评估流程,例如通过Python模块导入或命令行执行,从而计算模型在跨生成器场景下的F1分数、误报率等关键指标。这种设计使得该数据集能够高效服务于AI生成音乐检测模型的开发与验证工作。
背景与挑战
背景概述
在人工智能生成音乐技术迅猛发展的背景下,音乐取证领域面临严峻挑战。ArtifactBench数据集于2026年由研究人员Heewon Oh构建,旨在为AI生成音乐检测提供多生成器评估基准。该数据集覆盖了22种AI音乐生成器和6种真实音乐来源,共计8,766条音轨,以1:1比例平衡AI与真实样本。其核心研究问题聚焦于评估检测模型在分布外生成器上的泛化能力,弥补了先前基准如SONICS和MoM仅衡量分布内性能的不足,对推动音乐取证技术的实际部署具有重要影响力。
当前挑战
该数据集旨在解决AI生成音乐检测中的泛化挑战,即模型在遇到训练时未见的生成器时性能显著下降的问题。构建过程中面临多重挑战:需整合多样化的AI生成器以覆盖快速演进的技术生态,确保数据代表性;同时,真实音乐来源需涵盖不同编解码器和制作条件,以精确评估误报率;此外,数据平衡与格式统一(如AI音轨嵌入音频字节、真实音轨提供YouTube ID)也增加了工程复杂度。这些挑战共同指向构建一个稳健、可扩展的评估基准的艰巨性。
常用场景
经典使用场景
在音频取证与人工智能生成内容检测领域,ArtifactBench数据集作为一项多生成器评估基准,其经典使用场景聚焦于评估和比较不同AI生成音乐检测模型的泛化性能。该数据集通过涵盖22种AI音乐生成器和6种真实音乐源,构建了一个分布外测试环境,使得研究者能够系统性地检验模型在面对未知或新兴生成技术时的鲁棒性。这种设计突破了以往基准仅衡量分布内性能的局限,为模型在真实世界部署前的可靠性验证提供了关键支撑。
解决学术问题
ArtifactBench数据集主要解决了AI生成音乐检测研究中模型泛化能力不足的核心学术问题。先前基准如SONICS和MoM仅包含有限生成器,导致模型易过拟合并在未知生成器上性能骤降,形成“实验室高指标、实际部署失败”的困境。该数据集通过引入广泛的生成器多样性,迫使模型学习更具普适性的音频取证特征,而非特定生成器伪影,从而推动了检测技术从狭隘的基准优化向广义的稳健性评估范式转变,对领域发展具有里程碑意义。
衍生相关工作
基于ArtifactBench数据集,已衍生出一系列经典研究工作,其中最具代表性的是与其同期提出的ArtifactNet模型。该模型以仅4.2M参数实现了0.983的F1分数,显著优于CLAM、SpecTTTra等先前大型模型,展示了高效架构设计在泛化检测上的潜力。此外,该基准也激励了后续研究探索更轻量化、更具解释性的音频取证方法,并推动了针对多模态生成内容检测的跨领域基准构建,形成了以泛化为核心的新研究脉络。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作