five

DnR-nonverbal|音频源分离数据集|电影声音分析数据集

收藏
arXiv2025-06-03 更新2025-06-05 收录
音频源分离
电影声音分析
下载链接:
https://zenodo.org/records/15470640
下载链接
链接失效反馈
资源简介:
DnR-nonverbal是一个电影音频源分离(CASS)数据集,特别处理非言语声音。与传统CASS数据集只包含阅读风格的语音不同,该数据集在语音干中包含了笑声、尖叫等非言语声音。数据集包含从FSD50K和FreeSound收集的非言语声音片段,并经过基于规则和大型语言模型(LLM)的筛选。数据集创建过程包括收集非言语声音、筛选和处理混合过程。该数据集旨在解决当前CASS模型在处理实际电影音频中非言语声音提取的问题,并通过实验验证了其有效性。
提供机构:
LY Corporation, Japan
创建时间:
2025-06-03
原始信息汇总

DnR-nonverbal数据集概述

基本信息

  • 标题: DnR-nonverbal dataset
  • DOI: 10.5281/zenodo.15470640
  • 版本: v1
  • 发布日期: May 20, 2025
  • 发布者: Zenodo
  • 资源类型: Dataset
  • 会议: Interspeech 2025
  • 许可协议: Creative Commons Attribution 4.0 International
  • 创建者:
    • Takuya, Hasumi
    • Yusuke, Fujita

数据集描述

DnR-nonverbal是一个基于Divide and Remaster (DnR)数据集的电影音频源分离(CASS)数据集。与常规数据集不同,该数据集包含如笑声和尖叫等非语言声音,类似于实际电影音频。该数据集使CASS模型能够将非语言声音分配到与语音相同的音轨中。

数据集结构

数据集结构基于DnR,但包含作为语音音轨一部分的非语言声音。

dnr-nonverbal ├── tr │ ├── 100009 │ │ ├── annots.csv │ │ ├── background.wav │ │ ├── foreground.wav │ │ ├── mix.wav │ │ ├── music.wav │ │ ├── nonverbal.wav │ │ ├── reading.wav │ │ ├── sfx.wav │ │ └── speech.wav │ ├── 100031 │ ... ├── cv └── tt

文件说明

  • reading.wav: 从LibriSpeech提取的阅读风格语音。
  • nonverbal.wav: 从FSD50K收集和新从FreeSound爬取的非语言声音。
  • speech.wav: 阅读风格语音和非语言声音的混合。
  • music.wav: 从FMA (medium)提取的背景音乐。
  • foreground.wav: 从FSD50K收集的前景效果声音。
  • background.wav: 从FSD50K收集的背景效果声音。
  • sfx.wav: 前景和背景效果声音。
  • annots.csv: 识别声音来源的元数据文件。

使用方法

  1. 从页面下载dnr-nonverbal.tar.gz。
  2. 使用tar xvzf dnr-nonverval.tar.gz解压文件。
  3. (可选) 与DnR目录混合。样本ID的分配方式确保不与DnR重复。

文件信息

  • 名称: dnr-nonverbal.tar.gz
  • 大小: 22.7 GB
  • MD5: c3d80ce875d8d408439a20b65d6c4405

统计信息

  • 总浏览量: 31
  • 总下载量: 7
  • 总数据量: 340.4 GB

关键词

  • audio source separation
  • cinematic audio source separation
  • non-verbal sound

引用格式

Takuya, H., & Yusuke, F. (2025). DnR-nonverbal dataset [Data set]. Interspeech 2025. Zenodo. https://doi.org/10.5281/zenodo.15470640

AI搜集汇总
数据集介绍
main_image_url
构建方式
DnR-nonverbal数据集的构建过程体现了对电影音频处理领域深度需求的响应。该数据集在DnR-v2框架基础上,通过系统化采集FSD50K和FreeSound平台中的人类非言语声音(如笑声、尖叫等),并采用基于规则的标签过滤与大型语言模型辅助的质量筛选,确保数据纯净性。关键创新在于将非言语声音归入语音干(speech stem),通过零截断泊松分布控制片段数量,结合偏态高斯分布生成静音间隔,最终合成60秒长度的多轨音频,模拟真实电影声景的复杂性。
使用方法
该数据集需配合动态混合(dynamic mixing)技术使用,推荐以BandIt等先进分离模型为基准框架。训练时建议采用频域与时域MAE损失的组合目标,初始学习率设为0.001并配合周期衰减。实验表明,联合DnR-v2训练可提升非言语声音在语音干的分离SDR达3.68dB。实际应用中,需注意动物声音可能被误判为尖叫的边界情况,建议结合视觉模态进行上下文校验。数据集官网提供分离效果示例,支持A/B测试评估模型在真实电影片段中的自然度表现。
背景与挑战
背景概述
DnR-nonverbal数据集由LY Corporation的Takuya Hasumi和Yusuke Fujita于2025年提出,旨在解决电影音频源分离(CASS)领域中非语言声音处理的空白。传统CASS数据集如DnR-v2仅包含朗读式语音,而实际电影音频中常包含笑声、尖叫等情感化非语言声音,导致模型错误将其归类为音效。DnR-nonverbal通过整合FSD50K和FreeSound中的非语言声音样本,并采用基于规则和大型语言模型(LLM)的过滤方法,构建了一个更贴近真实电影场景的数据集。该数据集不仅推动了CASS技术的发展,还为电影修复、内容分析等应用提供了更精准的音频处理工具。
当前挑战
DnR-nonverbal数据集面临的核心挑战包括两方面:领域问题方面,传统CASS模型难以区分非语言声音(如笑声、尖叫)与音效,导致分离结果不自然;构建过程方面,非语言声音样本的稀缺性、标签噪声(如FSD50K中非人声标签干扰)以及跨平台数据(FreeSound)的质量控制问题增加了数据集构建难度。此外,需通过算法设计(如零截断泊松分布和偏态高斯分布)确保语音与非语言声音的合理混合比例,以模拟真实电影音频的复杂性。
常用场景
经典使用场景
DnR-nonverbal数据集在电影音频源分离(CASS)领域具有重要应用价值。该数据集通过整合非语言声音(如笑声、尖叫和耳语)作为语音主干的一部分,弥补了传统数据集仅包含朗读式语音的不足。在电影音频处理中,非语言声音是演员表演的重要组成部分,传统方法往往将这些声音错误地归类为效果音而非语音。DnR-nonverbal通过提供包含非语言声音的语音主干,使得模型能够更准确地分离电影音频中的语音内容,从而在电影修复、内容分析和版权音乐检测等任务中表现出色。
解决学术问题
DnR-nonverbal数据集解决了电影音频源分离中非语言声音错误分类的学术难题。传统数据集如DnR-v2仅包含朗读式语音,导致模型在处理情感丰富的非语言声音时表现不佳,常将其误分离为效果音。该数据集通过引入非语言声音作为语音主干的一部分,显著提升了模型在合成和实际电影音频中的分离性能。实验表明,使用DnR-nonverbal训练的模型在语音和效果音分离任务中的SDR评分显著提高,验证了其在解决非语言声音分类问题上的有效性。
实际应用
DnR-nonverbal数据集在实际应用中展现出广泛潜力。在电影制作和后期处理中,该数据集能够帮助音频工程师更准确地分离语音和非语言声音,从而提升音频编辑的自然性和一致性。此外,该数据集还可用于广告视频中的版权音乐检测,避免因音频混合导致的误判。主观评估显示,使用DnR-nonverbal训练的模型在实际电影音频中表现优异,能够更自然地提取演员的语音内容,为影视行业提供了实用的音频处理工具。
数据集最近研究
最新研究方向
在电影音频源分离领域,DnR-nonverbal数据集的推出标志着对非言语声音处理的重要突破。传统数据集仅包含阅读式语音,而实际电影音频中演员的情感表达如笑声、尖叫等常被错误归类为效果音而非语音。该数据集通过整合非言语声音作为语音主干,显著提升了模型在合成及真实电影音频中的分离性能。前沿研究聚焦于利用多模态信息(如视觉上下文)进一步优化分离精度,以应对动物声音误判等边缘案例。这一进展为电影修复、内容分析及版权检测等应用提供了更贴近真实场景的解决方案,推动音视频处理技术向人性化方向演进。
相关研究论文
  • 1
    DnR-nonverbal: Cinematic Audio Source Separation Dataset Containing Non-Verbal SoundsLY Corporation, Japan · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

MineNetCD

MineNetCD数据集由慕尼黑工业大学等机构创建,是一个全球矿区变化检测的综合基准数据集。该数据集包含超过70k对的双时相高分辨率遥感图像,覆盖全球100个矿区,总面积约6756.88平方公里。数据集的创建过程结合了半自动标注和专家手动标注,确保了数据的精细度和准确性。MineNetCD数据集主要应用于矿区环境监测和可持续发展研究,旨在通过高精度的变化检测技术,帮助实现矿区的可持续管理和环境保护。

arXiv 收录

集装箱数据集

集装箱数据集,包含3500张1080p集装箱图像以及其编码区的xml标注

AI_Studio 收录