five

Divide and Remaster (DnR) dataset v3|音频处理数据集|多语言支持数据集

收藏
arXiv2024-07-10 更新2024-07-23 收录
音频处理
多语言支持
下载链接:
https://github.com/kwatcharasupat/source-separation-landing
下载链接
链接失效反馈
资源简介:
Divide and Remaster (DnR) 数据集 v3 是由Netflix公司和乔治亚理工学院联合开发的电影音频源分离数据集,旨在解决多语言支持下的音频源分离问题。该数据集包含超过30种语言的对话内容,涵盖多个语系,如日耳曼语系、罗曼语系等。数据集包括训练、验证和测试三个部分,每个部分包含数千个音频片段,每个片段包含对话、音乐和效果等音频源。数据集的创建过程中,特别注意了语言多样性、音频质量及版权问题,确保了数据集的广泛适用性和合法性。该数据集主要应用于电影和流媒体服务的音频处理技术,以提高音频分离技术的准确性和通用性。
提供机构:
音频算法,Netflix公司,洛斯加托斯,CA 95032,美国
创建时间:
2024-07-10
原始信息汇总

数据集详情

Bandit: Cinematic Audio Source Separation

Banquet: Query-based Music Source Separation

Divide and Remaster v3 (WIP)

AI搜集汇总
数据集介绍
main_image_url
构建方式
Divide and Remaster (DnR) dataset v3的构建方式主要通过整合来自多个语言家族的对话内容,并从LibriSpeech、FMA和FSD50K等数据集中提取原始音频数据。该数据集的对话部分包含超过30种语言,涵盖日耳曼语、罗曼语、印欧语、达罗毗荼语、马来-波利尼西亚语和班图语等。音乐和效果音部分则通过语音音乐活动检测模型(SMAD)过滤掉包含语音或人声的内容,确保音乐和效果音的纯净性。此外,数据集的响度和时间参数经过调整,以模拟真实电影音频的分布,并采用行业标准的母带处理流程,确保各音轨之间的相对响度保持一致。
特点
DnR v3数据集的主要特点在于其多语言支持,涵盖了广泛的语言家族,使得模型能够在多种语言环境下进行训练和测试。此外,数据集在响度分布、母带处理和音频格式上进行了优化,以更接近真实电影音频的特性。数据集还特别注意去除了音乐和效果音中的语音内容,确保各音轨的独立性和纯净性。最后,数据集的构建严格遵循商业使用和再分发的许可要求,确保数据的合法性和可用性。
使用方法
DnR v3数据集适用于电影音频源分离(CASS)任务的训练和评估。用户可以通过该数据集训练模型,以分离混合音频中的对话、音乐和效果音轨。数据集提供了训练、验证和测试三个子集,每个子集包含多个语言变体,用户可以根据需要选择合适的子集进行模型训练。此外,数据集还提供了详细的响度和时间参数,帮助用户在训练过程中更好地模拟真实电影音频的特性。用户可以通过GitHub等平台获取数据集及其相关代码,并根据CC BY-SA 4.0和Apache 2.0许可证进行使用和再分发。
背景与挑战
背景概述
Divide and Remaster (DnR) dataset v3 是由 Karn N. Watcharasupat、Chih-Wei Wu 和 Iroro Orife 等研究人员在 Netflix 和 Georgia Institute of Technology 的支持下开发的。该数据集专注于电影音频源分离(Cinematic Audio Source Separation, CASS),旨在从混合音频中分离出对话、音乐和音效。DnR v3 的创建旨在解决 DnR v2 中存在的若干问题,如非对话音轨中的语音内容、响度分布、母带处理过程以及语言多样性。该数据集包含了来自超过30种语言的对话内容,涵盖了日耳曼语系、罗曼语系、印欧语系、达罗毗荼语系、马来-波利尼西亚语系和班图语系等多个语系。DnR v3 的发布对 CASS 领域的研究具有重要意义,特别是在多语言支持方面,为模型在低数据可用性语言中的泛化能力提供了显著的提升。
当前挑战
DnR v3 数据集在构建过程中面临多项挑战。首先,如何在非对话音轨中准确识别和去除语音内容是一个技术难题。其次,响度分布的调整需要精确模拟真实电影音频的响度特性,这对数据集的质量提出了高要求。此外,母带处理过程的模拟需要尽可能接近行业标准,以确保数据集的实用性和可靠性。语言多样性方面,如何从多种语言中收集和处理音频数据,同时确保数据的质量和一致性,也是一项重大挑战。最后,尽管 DnR v3 在多语言支持方面取得了显著进展,但仍有许多语言和语言家族未被涵盖,情感多样性在对话音轨中仍然有限,空间化、均衡和混响等电影音频制作的多个方面仍未得到充分解决。
常用场景
经典使用场景
Divide and Remaster (DnR) dataset v3 最经典的使用场景在于电影音频源分离(Cinematic Audio Source Separation, CASS)任务。该数据集通过提供多语言支持的对话、音乐和音效分离,使得研究人员和工程师能够在多语言环境下进行音频源分离模型的训练和评估。这种多语言支持不仅增强了模型的泛化能力,还为低资源语言的音频处理提供了宝贵的数据资源。
衍生相关工作
DnR v3 数据集的发布催生了一系列相关研究和工作,特别是在多语言音频处理和源分离领域。例如,基于该数据集的模型在2023年声音分离挑战赛中表现出色,推动了音频分离技术的进步。此外,DnR v3 还激发了更多关于低资源语言音频处理的研究,促进了全球范围内音频技术的均衡发展。
数据集最近研究
最新研究方向
在电影音频源分离领域,Divide and Remaster (DnR) dataset v3的最新研究方向聚焦于多语言支持、音频质量提升以及数据集多样性的增强。该数据集通过引入超过30种语言的对话内容,显著提升了模型的泛化能力,特别是在低数据可用性的语言中表现尤为突出。研究还关注于解决非对话音轨中的语音内容问题、音量分布调整以及母带处理过程的优化,以更真实地模拟电影音频的复杂性。这些改进不仅提升了数据集的实用性和研究价值,也为电影音频源分离技术的跨语言应用提供了坚实的基础。
相关研究论文
  • 1
    Remastering Divide and Remaster: A Cinematic Audio Source Separation Dataset with Multilingual Support音频算法,Netflix公司,洛斯加托斯,CA 95032,美国 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9

该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。

huggingface 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

QM9

该数据集名为QM9,包含了134,000个分子的信息,可用于生成点云的建模工作,同时也可应用于分子动力学的研究以及点云生成任务中。

arXiv 收录

限额以上批发业法人企业

限额以上批发业法人企业,包含按登记注册类型分、按国民经济行业分(2017)的限额以上批发业法人企业个数、从业人数、购进总额、销售总额、年末库存额等信息。

贵州省公共数据授权运营-公共数据开放平台 收录