five

DnR-nonverbal

收藏
arXiv2025-06-03 更新2025-06-05 收录
下载链接:
https://zenodo.org/records/15470640
下载链接
链接失效反馈
官方服务:
资源简介:
DnR-nonverbal是一个电影音频源分离(CASS)数据集,特别处理非言语声音。与传统CASS数据集只包含阅读风格的语音不同,该数据集在语音干中包含了笑声、尖叫等非言语声音。数据集包含从FSD50K和FreeSound收集的非言语声音片段,并经过基于规则和大型语言模型(LLM)的筛选。数据集创建过程包括收集非言语声音、筛选和处理混合过程。该数据集旨在解决当前CASS模型在处理实际电影音频中非言语声音提取的问题,并通过实验验证了其有效性。

DnR-nonverbal is a movie audio source separation (CASS) dataset that specifically focuses on non-verbal sounds. Unlike conventional CASS datasets that only contain read-style speech, this dataset incorporates non-verbal sounds such as laughter and screams into its speech stems. The dataset comprises non-verbal audio clips collected from FSD50K and FreeSound, which have undergone rule-based and Large Language Model (LLM)-based filtering. The dataset creation workflow includes three main stages: non-verbal sound collection, filtering, and audio mixing processing. This dataset is developed to address the limitations of current CASS models when extracting non-verbal sounds from real-world movie audio, and its effectiveness has been verified through experimental validation.
提供机构:
LY Corporation, Japan
创建时间:
2025-06-03
原始信息汇总

DnR-nonverbal数据集概述

基本信息

  • 标题: DnR-nonverbal dataset
  • DOI: 10.5281/zenodo.15470640
  • 版本: v1
  • 发布日期: May 20, 2025
  • 发布者: Zenodo
  • 资源类型: Dataset
  • 会议: Interspeech 2025
  • 许可协议: Creative Commons Attribution 4.0 International
  • 创建者:
    • Takuya, Hasumi
    • Yusuke, Fujita

数据集描述

DnR-nonverbal是一个基于Divide and Remaster (DnR)数据集的电影音频源分离(CASS)数据集。与常规数据集不同,该数据集包含如笑声和尖叫等非语言声音,类似于实际电影音频。该数据集使CASS模型能够将非语言声音分配到与语音相同的音轨中。

数据集结构

数据集结构基于DnR,但包含作为语音音轨一部分的非语言声音。

dnr-nonverbal ├── tr │ ├── 100009 │ │ ├── annots.csv │ │ ├── background.wav │ │ ├── foreground.wav │ │ ├── mix.wav │ │ ├── music.wav │ │ ├── nonverbal.wav │ │ ├── reading.wav │ │ ├── sfx.wav │ │ └── speech.wav │ ├── 100031 │ ... ├── cv └── tt

文件说明

  • reading.wav: 从LibriSpeech提取的阅读风格语音。
  • nonverbal.wav: 从FSD50K收集和新从FreeSound爬取的非语言声音。
  • speech.wav: 阅读风格语音和非语言声音的混合。
  • music.wav: 从FMA (medium)提取的背景音乐。
  • foreground.wav: 从FSD50K收集的前景效果声音。
  • background.wav: 从FSD50K收集的背景效果声音。
  • sfx.wav: 前景和背景效果声音。
  • annots.csv: 识别声音来源的元数据文件。

使用方法

  1. 从页面下载dnr-nonverbal.tar.gz。
  2. 使用tar xvzf dnr-nonverval.tar.gz解压文件。
  3. (可选) 与DnR目录混合。样本ID的分配方式确保不与DnR重复。

文件信息

  • 名称: dnr-nonverbal.tar.gz
  • 大小: 22.7 GB
  • MD5: c3d80ce875d8d408439a20b65d6c4405

统计信息

  • 总浏览量: 31
  • 总下载量: 7
  • 总数据量: 340.4 GB

关键词

  • audio source separation
  • cinematic audio source separation
  • non-verbal sound

引用格式

Takuya, H., & Yusuke, F. (2025). DnR-nonverbal dataset [Data set]. Interspeech 2025. Zenodo. https://doi.org/10.5281/zenodo.15470640

搜集汇总
数据集介绍
main_image_url
构建方式
DnR-nonverbal数据集的构建过程体现了对电影音频处理领域深度需求的响应。该数据集在DnR-v2框架基础上,通过系统化采集FSD50K和FreeSound平台中的人类非言语声音(如笑声、尖叫等),并采用基于规则的标签过滤与大型语言模型辅助的质量筛选,确保数据纯净性。关键创新在于将非言语声音归入语音干(speech stem),通过零截断泊松分布控制片段数量,结合偏态高斯分布生成静音间隔,最终合成60秒长度的多轨音频,模拟真实电影声景的复杂性。
使用方法
该数据集需配合动态混合(dynamic mixing)技术使用,推荐以BandIt等先进分离模型为基准框架。训练时建议采用频域与时域MAE损失的组合目标,初始学习率设为0.001并配合周期衰减。实验表明,联合DnR-v2训练可提升非言语声音在语音干的分离SDR达3.68dB。实际应用中,需注意动物声音可能被误判为尖叫的边界情况,建议结合视觉模态进行上下文校验。数据集官网提供分离效果示例,支持A/B测试评估模型在真实电影片段中的自然度表现。
背景与挑战
背景概述
DnR-nonverbal数据集由LY Corporation的Takuya Hasumi和Yusuke Fujita于2025年提出,旨在解决电影音频源分离(CASS)领域中非语言声音处理的空白。传统CASS数据集如DnR-v2仅包含朗读式语音,而实际电影音频中常包含笑声、尖叫等情感化非语言声音,导致模型错误将其归类为音效。DnR-nonverbal通过整合FSD50K和FreeSound中的非语言声音样本,并采用基于规则和大型语言模型(LLM)的过滤方法,构建了一个更贴近真实电影场景的数据集。该数据集不仅推动了CASS技术的发展,还为电影修复、内容分析等应用提供了更精准的音频处理工具。
当前挑战
DnR-nonverbal数据集面临的核心挑战包括两方面:领域问题方面,传统CASS模型难以区分非语言声音(如笑声、尖叫)与音效,导致分离结果不自然;构建过程方面,非语言声音样本的稀缺性、标签噪声(如FSD50K中非人声标签干扰)以及跨平台数据(FreeSound)的质量控制问题增加了数据集构建难度。此外,需通过算法设计(如零截断泊松分布和偏态高斯分布)确保语音与非语言声音的合理混合比例,以模拟真实电影音频的复杂性。
常用场景
经典使用场景
DnR-nonverbal数据集在电影音频源分离(CASS)领域具有重要应用价值。该数据集通过整合非语言声音(如笑声、尖叫和耳语)作为语音主干的一部分,弥补了传统数据集仅包含朗读式语音的不足。在电影音频处理中,非语言声音是演员表演的重要组成部分,传统方法往往将这些声音错误地归类为效果音而非语音。DnR-nonverbal通过提供包含非语言声音的语音主干,使得模型能够更准确地分离电影音频中的语音内容,从而在电影修复、内容分析和版权音乐检测等任务中表现出色。
解决学术问题
DnR-nonverbal数据集解决了电影音频源分离中非语言声音错误分类的学术难题。传统数据集如DnR-v2仅包含朗读式语音,导致模型在处理情感丰富的非语言声音时表现不佳,常将其误分离为效果音。该数据集通过引入非语言声音作为语音主干的一部分,显著提升了模型在合成和实际电影音频中的分离性能。实验表明,使用DnR-nonverbal训练的模型在语音和效果音分离任务中的SDR评分显著提高,验证了其在解决非语言声音分类问题上的有效性。
实际应用
DnR-nonverbal数据集在实际应用中展现出广泛潜力。在电影制作和后期处理中,该数据集能够帮助音频工程师更准确地分离语音和非语言声音,从而提升音频编辑的自然性和一致性。此外,该数据集还可用于广告视频中的版权音乐检测,避免因音频混合导致的误判。主观评估显示,使用DnR-nonverbal训练的模型在实际电影音频中表现优异,能够更自然地提取演员的语音内容,为影视行业提供了实用的音频处理工具。
数据集最近研究
最新研究方向
在电影音频源分离领域,DnR-nonverbal数据集的推出标志着对非言语声音处理的重要突破。传统数据集仅包含阅读式语音,而实际电影音频中演员的情感表达如笑声、尖叫等常被错误归类为效果音而非语音。该数据集通过整合非言语声音作为语音主干,显著提升了模型在合成及真实电影音频中的分离性能。前沿研究聚焦于利用多模态信息(如视觉上下文)进一步优化分离精度,以应对动物声音误判等边缘案例。这一进展为电影修复、内容分析及版权检测等应用提供了更贴近真实场景的解决方案,推动音视频处理技术向人性化方向演进。
相关研究论文
  • 1
    DnR-nonverbal: Cinematic Audio Source Separation Dataset Containing Non-Verbal SoundsLY Corporation, Japan · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作