DnR-nonverbal

Name: DnR-nonverbal
Creator: LY Corporation, Japan
Published: 2025-06-03 14:25:53
License: 暂无描述

arXiv2025-06-03 更新2025-06-05 收录

下载链接：

https://zenodo.org/records/15470640

下载链接

链接失效反馈

官方服务：

资源简介：

DnR-nonverbal是一个电影音频源分离（CASS）数据集，特别处理非言语声音。与传统CASS数据集只包含阅读风格的语音不同，该数据集在语音干中包含了笑声、尖叫等非言语声音。数据集包含从FSD50K和FreeSound收集的非言语声音片段，并经过基于规则和大型语言模型（LLM）的筛选。数据集创建过程包括收集非言语声音、筛选和处理混合过程。该数据集旨在解决当前CASS模型在处理实际电影音频中非言语声音提取的问题，并通过实验验证了其有效性。

DnR-nonverbal is a movie audio source separation (CASS) dataset that specifically focuses on non-verbal sounds. Unlike conventional CASS datasets that only contain read-style speech, this dataset incorporates non-verbal sounds such as laughter and screams into its speech stems. The dataset comprises non-verbal audio clips collected from FSD50K and FreeSound, which have undergone rule-based and Large Language Model (LLM)-based filtering. The dataset creation workflow includes three main stages: non-verbal sound collection, filtering, and audio mixing processing. This dataset is developed to address the limitations of current CASS models when extracting non-verbal sounds from real-world movie audio, and its effectiveness has been verified through experimental validation.

提供机构：

LY Corporation, Japan

创建时间：

2025-06-03

原始信息汇总

DnR-nonverbal数据集概述

基本信息

标题: DnR-nonverbal dataset
DOI: 10.5281/zenodo.15470640
版本: v1
发布日期: May 20, 2025
发布者: Zenodo
资源类型: Dataset
会议: Interspeech 2025
许可协议: Creative Commons Attribution 4.0 International
创建者:
- Takuya, Hasumi
- Yusuke, Fujita

数据集描述

DnR-nonverbal是一个基于Divide and Remaster (DnR)数据集的电影音频源分离(CASS)数据集。与常规数据集不同，该数据集包含如笑声和尖叫等非语言声音，类似于实际电影音频。该数据集使CASS模型能够将非语言声音分配到与语音相同的音轨中。

数据集结构

数据集结构基于DnR，但包含作为语音音轨一部分的非语言声音。

dnr-nonverbal ├── tr │ ├── 100009 │ │ ├── annots.csv │ │ ├── background.wav │ │ ├── foreground.wav │ │ ├── mix.wav │ │ ├── music.wav │ │ ├── nonverbal.wav │ │ ├── reading.wav │ │ ├── sfx.wav │ │ └── speech.wav │ ├── 100031 │ ... ├── cv └── tt

文件说明

reading.wav: 从LibriSpeech提取的阅读风格语音。
nonverbal.wav: 从FSD50K收集和新从FreeSound爬取的非语言声音。
speech.wav: 阅读风格语音和非语言声音的混合。
music.wav: 从FMA (medium)提取的背景音乐。
foreground.wav: 从FSD50K收集的前景效果声音。
background.wav: 从FSD50K收集的背景效果声音。
sfx.wav: 前景和背景效果声音。
annots.csv: 识别声音来源的元数据文件。

使用方法

从页面下载dnr-nonverbal.tar.gz。
使用tar xvzf dnr-nonverval.tar.gz解压文件。
(可选) 与DnR目录混合。样本ID的分配方式确保不与DnR重复。

文件信息

名称: dnr-nonverbal.tar.gz
大小: 22.7 GB
MD5: c3d80ce875d8d408439a20b65d6c4405

统计信息

总浏览量: 31
总下载量: 7
总数据量: 340.4 GB

关键词

audio source separation
cinematic audio source separation
non-verbal sound

引用格式

Takuya, H., & Yusuke, F. (2025). DnR-nonverbal dataset [Data set]. Interspeech 2025. Zenodo. https://doi.org/10.5281/zenodo.15470640

搜集汇总

数据集介绍

构建方式

DnR-nonverbal数据集的构建过程体现了对电影音频处理领域深度需求的响应。该数据集在DnR-v2框架基础上，通过系统化采集FSD50K和FreeSound平台中的人类非言语声音（如笑声、尖叫等），并采用基于规则的标签过滤与大型语言模型辅助的质量筛选，确保数据纯净性。关键创新在于将非言语声音归入语音干（speech stem），通过零截断泊松分布控制片段数量，结合偏态高斯分布生成静音间隔，最终合成60秒长度的多轨音频，模拟真实电影声景的复杂性。

使用方法

该数据集需配合动态混合（dynamic mixing）技术使用，推荐以BandIt等先进分离模型为基准框架。训练时建议采用频域与时域MAE损失的组合目标，初始学习率设为0.001并配合周期衰减。实验表明，联合DnR-v2训练可提升非言语声音在语音干的分离SDR达3.68dB。实际应用中，需注意动物声音可能被误判为尖叫的边界情况，建议结合视觉模态进行上下文校验。数据集官网提供分离效果示例，支持A/B测试评估模型在真实电影片段中的自然度表现。

背景与挑战

背景概述

DnR-nonverbal数据集由LY Corporation的Takuya Hasumi和Yusuke Fujita于2025年提出，旨在解决电影音频源分离（CASS）领域中非语言声音处理的空白。传统CASS数据集如DnR-v2仅包含朗读式语音，而实际电影音频中常包含笑声、尖叫等情感化非语言声音，导致模型错误将其归类为音效。DnR-nonverbal通过整合FSD50K和FreeSound中的非语言声音样本，并采用基于规则和大型语言模型（LLM）的过滤方法，构建了一个更贴近真实电影场景的数据集。该数据集不仅推动了CASS技术的发展，还为电影修复、内容分析等应用提供了更精准的音频处理工具。

当前挑战

DnR-nonverbal数据集面临的核心挑战包括两方面：领域问题方面，传统CASS模型难以区分非语言声音（如笑声、尖叫）与音效，导致分离结果不自然；构建过程方面，非语言声音样本的稀缺性、标签噪声（如FSD50K中非人声标签干扰）以及跨平台数据（FreeSound）的质量控制问题增加了数据集构建难度。此外，需通过算法设计（如零截断泊松分布和偏态高斯分布）确保语音与非语言声音的合理混合比例，以模拟真实电影音频的复杂性。

常用场景

经典使用场景

DnR-nonverbal数据集在电影音频源分离（CASS）领域具有重要应用价值。该数据集通过整合非语言声音（如笑声、尖叫和耳语）作为语音主干的一部分，弥补了传统数据集仅包含朗读式语音的不足。在电影音频处理中，非语言声音是演员表演的重要组成部分，传统方法往往将这些声音错误地归类为效果音而非语音。DnR-nonverbal通过提供包含非语言声音的语音主干，使得模型能够更准确地分离电影音频中的语音内容，从而在电影修复、内容分析和版权音乐检测等任务中表现出色。

解决学术问题

DnR-nonverbal数据集解决了电影音频源分离中非语言声音错误分类的学术难题。传统数据集如DnR-v2仅包含朗读式语音，导致模型在处理情感丰富的非语言声音时表现不佳，常将其误分离为效果音。该数据集通过引入非语言声音作为语音主干的一部分，显著提升了模型在合成和实际电影音频中的分离性能。实验表明，使用DnR-nonverbal训练的模型在语音和效果音分离任务中的SDR评分显著提高，验证了其在解决非语言声音分类问题上的有效性。

实际应用

DnR-nonverbal数据集在实际应用中展现出广泛潜力。在电影制作和后期处理中，该数据集能够帮助音频工程师更准确地分离语音和非语言声音，从而提升音频编辑的自然性和一致性。此外，该数据集还可用于广告视频中的版权音乐检测，避免因音频混合导致的误判。主观评估显示，使用DnR-nonverbal训练的模型在实际电影音频中表现优异，能够更自然地提取演员的语音内容，为影视行业提供了实用的音频处理工具。

数据集最近研究