Divide and Remaster (DnR) dataset v3

Name: Divide and Remaster (DnR) dataset v3
Creator: 音频算法，Netflix公司，洛斯加托斯，CA 95032，美国
Published: 2024-07-10 07:39:37
License: 暂无描述

arXiv2024-07-10 更新2024-07-23 收录

下载链接：

https://github.com/kwatcharasupat/source-separation-landing

下载链接

链接失效反馈

官方服务：

资源简介：

Divide and Remaster (DnR) 数据集 v3 是由Netflix公司和乔治亚理工学院联合开发的电影音频源分离数据集，旨在解决多语言支持下的音频源分离问题。该数据集包含超过30种语言的对话内容，涵盖多个语系，如日耳曼语系、罗曼语系等。数据集包括训练、验证和测试三个部分，每个部分包含数千个音频片段，每个片段包含对话、音乐和效果等音频源。数据集的创建过程中，特别注意了语言多样性、音频质量及版权问题，确保了数据集的广泛适用性和合法性。该数据集主要应用于电影和流媒体服务的音频处理技术，以提高音频分离技术的准确性和通用性。

The Divide and Remaster (DnR) Dataset v3 is a movie audio source separation dataset jointly developed by Netflix and the Georgia Institute of Technology, aiming to address audio source separation challenges in multilingual scenarios. This dataset contains dialogue content in over 30 languages, spanning multiple language families such as the Germanic and Romance language families. The dataset is divided into three subsets: training, validation, and test sets, each holding thousands of audio clips. Each clip comprises multiple audio sources including dialogue, music, and sound effects. During the dataset's creation, special emphasis was placed on language diversity, audio quality, and copyright compliance, ensuring its wide applicability and legal validity. This dataset is primarily utilized for audio processing technologies in films and streaming services to enhance the accuracy and generalizability of audio source separation techniques.

提供机构：

音频算法，Netflix公司，洛斯加托斯，CA 95032，美国

创建时间：

2024-07-10

原始信息汇总

数据集详情

Bandit: Cinematic Audio Source Separation

模型来源: 改编自 Bandsplit RNN
相关论文: IEEE OJSP Open-Access Paper
模型仓库: Model Repository

Banquet: Query-based Music Source Separation

模型来源: 改编自 Bandit + PaSST
相关论文: Accepted ISMIR 2024 Preprint
模型仓库: Model Repository

Divide and Remaster v3 (WIP)

数据集来源: 多语言重制版的 Divide and Remaster v2
相关论文: Preprint, submitted to IEEE IS2
模型仓库: Model Repository
数据集仓库: Dataset Repository (WIP)

搜集汇总

数据集介绍

构建方式

Divide and Remaster (DnR) dataset v3的构建方式主要通过整合来自多个语言家族的对话内容，并从LibriSpeech、FMA和FSD50K等数据集中提取原始音频数据。该数据集的对话部分包含超过30种语言，涵盖日耳曼语、罗曼语、印欧语、达罗毗荼语、马来-波利尼西亚语和班图语等。音乐和效果音部分则通过语音音乐活动检测模型（SMAD）过滤掉包含语音或人声的内容，确保音乐和效果音的纯净性。此外，数据集的响度和时间参数经过调整，以模拟真实电影音频的分布，并采用行业标准的母带处理流程，确保各音轨之间的相对响度保持一致。

特点

DnR v3数据集的主要特点在于其多语言支持，涵盖了广泛的语言家族，使得模型能够在多种语言环境下进行训练和测试。此外，数据集在响度分布、母带处理和音频格式上进行了优化，以更接近真实电影音频的特性。数据集还特别注意去除了音乐和效果音中的语音内容，确保各音轨的独立性和纯净性。最后，数据集的构建严格遵循商业使用和再分发的许可要求，确保数据的合法性和可用性。

使用方法

DnR v3数据集适用于电影音频源分离（CASS）任务的训练和评估。用户可以通过该数据集训练模型，以分离混合音频中的对话、音乐和效果音轨。数据集提供了训练、验证和测试三个子集，每个子集包含多个语言变体，用户可以根据需要选择合适的子集进行模型训练。此外，数据集还提供了详细的响度和时间参数，帮助用户在训练过程中更好地模拟真实电影音频的特性。用户可以通过GitHub等平台获取数据集及其相关代码，并根据CC BY-SA 4.0和Apache 2.0许可证进行使用和再分发。

背景与挑战

背景概述

Divide and Remaster (DnR) dataset v3 是由 Karn N. Watcharasupat、Chih-Wei Wu 和 Iroro Orife 等研究人员在 Netflix 和 Georgia Institute of Technology 的支持下开发的。该数据集专注于电影音频源分离（Cinematic Audio Source Separation, CASS），旨在从混合音频中分离出对话、音乐和音效。DnR v3 的创建旨在解决 DnR v2 中存在的若干问题，如非对话音轨中的语音内容、响度分布、母带处理过程以及语言多样性。该数据集包含了来自超过30种语言的对话内容，涵盖了日耳曼语系、罗曼语系、印欧语系、达罗毗荼语系、马来-波利尼西亚语系和班图语系等多个语系。DnR v3 的发布对 CASS 领域的研究具有重要意义，特别是在多语言支持方面，为模型在低数据可用性语言中的泛化能力提供了显著的提升。

当前挑战

DnR v3 数据集在构建过程中面临多项挑战。首先，如何在非对话音轨中准确识别和去除语音内容是一个技术难题。其次，响度分布的调整需要精确模拟真实电影音频的响度特性，这对数据集的质量提出了高要求。此外，母带处理过程的模拟需要尽可能接近行业标准，以确保数据集的实用性和可靠性。语言多样性方面，如何从多种语言中收集和处理音频数据，同时确保数据的质量和一致性，也是一项重大挑战。最后，尽管 DnR v3 在多语言支持方面取得了显著进展，但仍有许多语言和语言家族未被涵盖，情感多样性在对话音轨中仍然有限，空间化、均衡和混响等电影音频制作的多个方面仍未得到充分解决。

常用场景

经典使用场景

Divide and Remaster (DnR) dataset v3 最经典的使用场景在于电影音频源分离（Cinematic Audio Source Separation, CASS）任务。该数据集通过提供多语言支持的对话、音乐和音效分离，使得研究人员和工程师能够在多语言环境下进行音频源分离模型的训练和评估。这种多语言支持不仅增强了模型的泛化能力，还为低资源语言的音频处理提供了宝贵的数据资源。

衍生相关工作

DnR v3 数据集的发布催生了一系列相关研究和工作，特别是在多语言音频处理和源分离领域。例如，基于该数据集的模型在2023年声音分离挑战赛中表现出色，推动了音频分离技术的进步。此外，DnR v3 还激发了更多关于低资源语言音频处理的研究，促进了全球范围内音频技术的均衡发展。

数据集最近研究