CAPTDURE
收藏arXiv2023-05-28 更新2024-06-21 收录
下载链接:
https://sites.google.com/view/yuki-okamoto/dataset
下载链接
链接失效反馈官方服务:
资源简介:
CAPTDURE是由立命馆大学、同志社大学和日立有限公司合作创建的单源声音带字幕数据集,旨在支持环境声音分离和合成等任务。该数据集包含1044个单源声音和4902个字幕,涵盖14种日常声音事件,每个声音事件有40至100个声音样本,时长5至9秒。数据集通过改变录音条件和设备进行录制,确保声音的多样性和真实性。CAPTDURE特别适用于需要精确控制声音的环境声音合成和分离任务,通过字幕描述声音特征,有效提取单源目标声音。
CAPTDURE is a single-source audio dataset with associated subtitles, jointly created by Ritsumeikan University, Doshisha University, and Hitachi, Ltd. It is designed to support tasks such as environmental sound separation and synthesis. This dataset includes 1,044 single-source audio clips and 4,902 subtitles, covering 14 daily sound events. Each event has 40 to 100 audio samples with a duration ranging from 5 to 9 seconds. The dataset is recorded by adjusting recording conditions and equipment to guarantee the diversity and authenticity of the audio samples. CAPTDURE is particularly well-suited for environmental sound synthesis and separation tasks that demand precise audio control. Leveraging subtitles to describe sound characteristics, it enables effective extraction of target single-source audio.
提供机构:
立命馆大学, 同志社大学, 日立有限公司
创建时间:
2023-05-28
搜集汇总
数据集介绍

构建方式
在环境声音处理领域,数据集的构建质量直接影响模型性能。CAPTDURE的构建始于在声学条件受控的录音环境中,系统采集了14类日常声音事件的1,044段单源声音样本,每段时长5至9秒,并依据音色与音高差异细分子类。随后,通过将不同类别的单源声音以0 dB信噪比混合,生成了同等数量的多源声音样本。在标注环节,研究团队通过日本众包平台Lancers征集了4,902条针对单源声音的详细文本描述,每条声音对应至少3条独立标注,并额外收集了3,132条多源声音标注。所有日文标注均通过DeepL API译为英文,确保了语言多样性。最后,通过众包方式对每条标注进行了适宜性评分,并将数据按约7:1:2的比例划分为训练集、验证集和测试集,保证了数据分布的平衡性。
特点
CAPTDURE的核心特征在于其专注于单源声音的细粒度文本标注。与现有多源声音标注数据集相比,该数据集提供的描述更为详尽,能够捕捉声音事件的细微差异,如发生次数、音色特质与时序变化。数据集涵盖键盘、门锁、鼠标点击等14类日常声音,每类均包含丰富的子类变体,增强了声音多样性。此外,数据集不仅包含原始单源声音及其标注,还提供了人工混合的多源声音样本及对应标注,并附有众包评估的标注适宜性分数,为模型训练与评估提供了多维度的可靠基准。这种设计使得数据集特别适用于需要精确控制单源声音特征的分离与合成任务。
使用方法
该数据集主要应用于基于文本查询的环境声音分离与合成任务。在声音分离任务中,研究者可利用单源声音的文本标注训练模型,使其能够从混合音频中精准提取与文本描述匹配的目标声音成分,实验表明该方法在跨事件类别及同事件类别分离中均优于基于多源标注的训练策略。在声音合成领域,细致的单源描述可作为条件输入,引导生成模型产生符合特定语义的音频。使用时可遵循数据集的既定划分,利用训练集优化模型参数,验证集进行超参数调整,并在测试集上评估性能。数据集中提供的日英双语标注及适宜性分数,为进一步研究标注质量对模型的影响提供了便利。
背景与挑战
背景概述
在环境声音处理领域,基于文本描述的声音分离与合成技术正逐渐成为研究热点。传统方法多依赖于为多源混合声音标注的文本数据集,然而这类数据集的描述往往难以精确捕捉单个声源的细节特征,如声音发生次数与音色变化。为应对这一局限,由日本立命命馆大学、同志社大学及日立公司的研究人员于2023年共同构建了CAPTDURE数据集。该数据集专注于单一声源,收录了涵盖键盘、门锁、时钟等14类日常声音事件的1,044段单源声音样本,并配以4,902条精细文本描述。其核心研究目标在于通过高质量的单源标注数据,推动环境声音的精准提取与可控合成,为跨模态音频处理任务提供了关键的数据基础。
当前挑战
CAPTDURE数据集旨在解决环境声音领域中单一声源的精准提取与合成问题,其核心挑战在于如何从多源混合声音中分离出符合文本描述的特定单一声源。传统多源标注数据集因描述笼统,难以区分混合声音中的独立声源细节,导致模型无法实现精细化的目标声音提取。在数据集构建过程中,研究人员面临多重挑战:一是确保标注质量,需通过众包平台收集详尽且差异化的文本描述,避免出现仅依赖声音类别或拟声词的简单标注;二是维持数据平衡,需在录音环境、设备及声源子类多样性上严格控制,以覆盖广泛的音色与场景变化;三是实现跨语言适用性,需将日语原始标注准确翻译为英语,同时保持描述的语义一致性。
常用场景
经典使用场景
在环境声音处理领域,CAPTDURE数据集为基于文本描述的单源声音分离与合成任务提供了关键支持。该数据集通过提供详细标注的单源声音及其对应文本描述,使得模型能够精准地从混合声音中提取特定目标声音。例如,在音频内容编辑或增强现实应用中,用户可通过自然语言指令(如“缓慢按压键盘的轻柔高音”)来分离出单一声音源,从而避免了传统多源标注数据集中描述模糊的问题。这一经典使用场景显著提升了声音处理的精确性与可控性。
解决学术问题
CAPTDURE数据集解决了环境声音研究中单源目标提取的长期挑战。传统多源标注数据集因描述笼统,难以支持模型对单一声音源的细粒度控制,导致分离效果受限。该数据集通过提供高质量的单源声音及其详细文本描述,使研究者能够训练模型更准确地理解声音的时序、音色等属性,从而在声音事件检测、跨语言声音处理等任务中实现更高性能。其意义在于推动了文本驱动音频处理方法的进步,为跨模态学习提供了可靠数据基础。
衍生相关工作
CAPTDURE数据集催生了多项经典研究工作,尤其在文本查询声音分离与合成方向。基于其单源标注特性,研究者开发了改进的Conv-TasNet与BERT融合模型,实现了更精准的声音提取。后续工作如Clipsep和AudioLDM等,借鉴了其细粒度标注思路,推动了文本到音频生成技术的发展。这些衍生模型不仅优化了声音分离的SDR指标,还扩展至视频配音、个性化声音合成等跨模态任务,形成了从数据到方法的完整研究链条。
以上内容由遇见数据集搜集并总结生成



