five

CCF AATC 2025:Speech Restoration Challenge 数据集

收藏
arXiv2025-09-16 更新2025-09-18 收录
下载链接:
https://github.com/viewfinder-annn/anyenhance-v1-ccf-aatc
下载链接
链接失效反馈
官方服务:
资源简介:
CCF AATC 2025:Speech Restoration Challenge 数据集是中国计算机学会高级音频技术竞赛2025年的一项挑战,旨在恢复受多种复杂退化影响的声音信号。数据集由三个公开可用的干净语音语料库合成,并通过一个精心设计的退化流程创建了相应的退化版本。该数据集模拟了现实世界中的录音环境,包括非平稳噪声、混响、带宽限制和不同信噪比的噪声。数据集还包含了由MP3压缩和其它语音增强模型引入的“次级”或“处理”伪影。该数据集旨在推动语音增强研究,特别是针对现实世界中复杂和复合退化场景的通用语音恢复算法的开发。

The CCF AATC 2025: Speech Restoration Challenge Dataset is a challenge under the 2025 China Computer Federation (CCF) Advanced Audio Technology Competition, which aims to restore speech signals affected by multiple complex degradations. The dataset is synthesized from three publicly available clean speech corpora, and corresponding degraded versions are created via a meticulously designed degradation pipeline. It simulates real-world recording environments, including non-stationary noise, reverberation, bandwidth limitation, and noise with varying signal-to-noise ratios (SNRs). Additionally, the dataset contains "secondary" or "processing" artifacts introduced by MP3 compression and other speech enhancement models. This dataset is intended to advance speech enhancement research, especially the development of universal speech restoration algorithms for complex and composite degradation scenarios in real-world settings.
提供机构:
中国计算机学会(CCF)高级音频技术竞赛(AATC)2025
创建时间:
2025-09-16
原始信息汇总

数据集概述

基本信息

  • 数据集名称:CCF-AATC 2025挑战赛赛道1基线数据集
  • 主要用途:语音修复任务,针对多重失真场景
  • 主办方:CCF-AATC(中国计算机学会语音对话与听觉专委会)

失真类型

  • 声学退化:噪声和混响
  • 信号链伪影:削波、带宽限制、编解码器失真
  • 处理伪影:残留和算法引起的失真

数据规模与结构

训练数据集

  • 磁盘空间:约320GB
  • 音频时长:约200小时
  • 数据内容:成对音频数据,包含:
    • 纯净音频(clean)
    • 带噪版本(noisy)
    • MP3编码版本(encoded)
    • 基线增强模型输出(generated)

开发数据集

  • 样本数量:500个成对音频文件
  • 数据内容:仅包含纯净音频和带噪音频文件夹

数据组织结构

train_v1/ ├── train_v1.jsonl ├── clean/ ├── noisy/ ├── encoded/ └── generated/ ├── anyenhance/ ├── demucs/ └── ...

元数据格式

使用JSONL文件格式组织元数据,每条记录包含:

  • clean:纯净音频文件路径
  • noisy:带噪音频文件路径
  • other_distortion:其他失真类型音频文件路径列表

获取方式

  • 注册要求:需要在官方网站注册后才能获取下载权限
  • 官方网址:https://ccf-aatc.org.cn/

数据处理工具

提供数据准备脚本(generate_jsonl.py)用于生成数据路径的JSONL文件

数据模拟功能

提供数据模拟脚本,可模拟:

  • 从(语音、噪声、RIR)对生成带噪-纯净音频
  • 从纯净音频模拟MP3编码音频

自定义数据支持

支持用户使用自定义数据进行训练,需保持相同的数据结构和元数据格式

搜集汇总
数据集介绍
main_image_url
构建方式
在语音恢复研究领域,构建高质量数据集是推动算法发展的关键。该数据集基于三个公开语音库(VCTK、AISHELL-3和EARS)的纯净语音,通过精心设计的三阶段退化流程合成:首先采用AnyEnhance管道引入声学退化(混响、削波、滤波和噪声);随后通过FFmpeg进行MP3压缩模拟编解码失真;最后创新性地使用十种知名语音增强模型产生二次处理伪影,全面模拟真实场景中的复合失真。
特点
该数据集的核心特征体现在其多维度的复杂性设计。其退化组合涵盖声学环境、传输链和算法处理三层失真,包括非平稳噪声、混响、低比特率压缩伪影及其他增强模型残留失真。数据来源兼具英语和汉语多说话人语音,确保语言和口音多样性。特别引入的二次处理伪影机制,要求模型具备修复其他系统残留误差的能力,为研究通用语音恢复提供了前所未有的挑战性基准。
使用方法
该数据集专为CCF AATC 2025语音恢复挑战赛设计,参赛者需开发端到端系统将退化语音恢复为高保真版本。官方提供基于AnyEnhance的基线系统,包含语义增强和声学增强两阶段模型。评估体系采用客观指标(WAcc、DNSMOS、PESQ)与模型参数数量双重评分机制,决赛阶段增设主观听力测试和创新性评估。数据集支持训练集与开发集使用,需通过标准化流程加载音频文件并进行波形到波形的映射训练。
背景与挑战
背景概述
语音修复作为音频工程与通信系统的核心环节,其研究旨在从受损信号中恢复纯净语音,提升通信质量与可懂度。CCF AATC 2025语音修复挑战数据集由香港中文大学(深圳)、华为终端音频部、北京希尔科技有限公司及中国科学技术大学联合构建,于2025年发布。该数据集聚焦复合退化场景下的语音修复问题,突破传统单一退化类型研究的局限,推动一体化语音修复模型的发展,对实时通信、助听设备及音频处理技术领域具有重要影响力。
当前挑战
该数据集需解决复合退化语音修复的核心难题,包括非线性环境噪声与混响的协同干扰、编解码器压缩引入的预回声等信号链失真,以及预处理模型残留的二次伪影。构建过程中面临多源退化模拟的复杂性,需平衡声学退化、MP3压缩与十种增强模型输出的伪影合成;同时需确保数据多样性,整合VCTK、AISHELL-3和EARS等多语种高质语音库,并设计客观指标与主观听测结合的评价体系以保障模型效能与实用性的统一。
常用场景
经典使用场景
在语音信号处理研究中,该数据集被广泛用于开发与评估一体化语音恢复系统。研究者利用其合成的复合失真样本,训练深度学习模型以同时处理环境噪声、混响效应及编解码器引入的伪影,显著提升了模型在复杂声学环境下的泛化能力。
衍生相关工作
该数据集催生了多项经典工作,包括基于掩码生成建模的MaskSR、扩散模型Storm以及轻量化框架AnyEnhance。这些衍生研究进一步探索了生成式增强、零样本恢复与多任务学习方向,推动了语音处理领域与生成式人工智能的交叉创新。
数据集最近研究
最新研究方向
语音修复领域正聚焦于复合失真场景下的统一建模与轻量化设计。CCF AATC 2025挑战赛通过融合声学退化、编解码失真与二次处理伪影的三阶段退化 pipeline,推动多失真联合处理范式的发展。当前研究热点包括基于掩码生成模型与扩散模型的端到端修复架构,如AnyEnhance基线系统所示范的两阶段渐进式修复框架。同时,模型效率与泛化能力的平衡成为关键议题,竞赛评分体系首次将参数量与创新性纳入核心指标,引导研究者开发兼顾性能与实用性的轻量级解决方案。这一趋势显著提升了复杂场景下语音修复技术的鲁棒性与落地潜力。
相关研究论文
  • 1
    The CCF AATC 2025: Speech Restoration Challenge中国计算机学会(CCF)高级音频技术竞赛(AATC)2025 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作