corvj/daps
收藏Hugging Face2023-05-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/corvj/daps
下载链接
链接失效反馈官方服务:
资源简介:
DAPS(Device and Produced Speech)数据集是一个包含专业录音室语音录音和常见消费设备(如平板电脑和智能手机)在真实环境中录制的相同语音的对齐版本的数据集。数据集包含15个版本的音频(3个专业版本和12个消费设备/真实环境组合),每个版本包含约4.5小时的数据(来自20个说话者,每人约14分钟)。数据集的主要目标是帮助开发方法,将真实世界设备录音自动转换为专业质量的录音。数据集还可用于语音转换、传统语音增强和自动制作录音室录音等应用。
DAPS(Device and Produced Speech)数据集是一个包含专业录音室语音录音和常见消费设备(如平板电脑和智能手机)在真实环境中录制的相同语音的对齐版本的数据集。数据集包含15个版本的音频(3个专业版本和12个消费设备/真实环境组合),每个版本包含约4.5小时的数据(来自20个说话者,每人约14分钟)。数据集的主要目标是帮助开发方法,将真实世界设备录音自动转换为专业质量的录音。数据集还可用于语音转换、传统语音增强和自动制作录音室录音等应用。
提供机构:
corvj
原始信息汇总
DAPS Dataset Summary
数据集概述
- 名称: Device and Produced Speech Dataset (DAPS)
- 语言: 英语
- 描述: DAPS数据集包含专业制作的录音与同一语音在常见消费者设备(平板电脑和智能手机)上的录音,这些设备录音在真实世界环境中进行。数据集包含15个版本的音频,包括3个专业版本和12个消费者设备/真实世界环境组合。每个版本约4.5小时数据,由20位说话者提供,每位约14分钟。
数据集特征格式
json { recording_environment: Value(dtype=string, id=None), speaker_id: Value(dtype=string, id=None), script_id: Value(dtype=string, id=None), clean_path: Value(dtype=string, id=None), produced_path: Value(dtype=string, id=None), device_path: Value(dtype=string, id=None), clean_audio: Audio(sampling_rate=44100, mono=True, decode=True, id=None), produced_audio: Audio(sampling_rate=44100, mono=True, decode=True, id=None), device_audio: Audio(sampling_rate=44100, mono=True, decode=True, id=None) }
音频文件内容
- 每个版本包含: 100个wav文件,20位说话者,每人读5个脚本。
- 专业录音版本:
- cleanraw: 原始清洁工作室录音,包含语音及非语音声音。
- clean: cleanraw的版本,大部分非语音声音被专业声音工程师仔细移除。
- produced: clean的版本,应用了EQ和压缩等效果处理。
- 设备录音版本:
- 设备: iPad, iPadflat, iPhone
- 环境: office1, office2, confroom1, confroom2, livingroom1, bedroom1, balcony1
附加文件
- 补充文件夹: 包含说话者阅读的实际脚本及用于创建新设备录音的Matlab文件。
许可
- 许可证: Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
搜集汇总
数据集介绍

构建方式
DAPS数据集的构建是基于对专业录音棚中的语音录制与常见消费设备(平板电脑和智能手机)在实际环境中录制的相同语音进行对齐的方式进行的。该数据集包含了15种不同的音频版本,包括3种专业版本和12种消费设备/实际环境组合版本,每种版本大约有4个半小时的数据,涉及20位发言者,每位发言者朗读5个脚本,总计约14分钟。
特点
DAPS数据集的主要特色在于其提供了专业录音棚录制版本和消费设备在实际环境中的录制版本,旨在帮助研究者开发将现实世界中的设备录音自动转换为专业品质语音的方法。数据集涵盖了多种设备和环境,包括iPad、iPhone以及不同 reverberation 程度的办公室、会议室、客厅、卧室和阳台等,使得该数据集在语音转换、传统语音增强和自动制作录音棚录音等领域具有广泛的应用价值。
使用方法
使用DAPS数据集时,研究者可以根据需要选择不同版本和环境的音频文件。每个版本包含100个wav格式的音频文件,分别由20位发言者朗读5个脚本。数据集还提供了附加的Matlab文件和脚本,以便于创建新的设备录音。在使用该数据集进行学术研究时,建议遵循Creative Commons Attribution-NonCommercial 4.0 International license,并在出版物中引用相关文献。
背景与挑战
背景概述
DAPS(Device and Produced Speech)数据集,由Adobe Research的Gautham J. Mysore创建于2015年,旨在推动对现实世界消费设备中录音的自动转换方法的研究。该数据集汇集了专业录音棚制作的语音录音与在真实世界环境中常见消费设备(平板电脑和智能手机)录制的相同语音的对齐版本,共包含15种版本,每种版本约有4.5小时的音频数据。其研究成果发表于IEEE Signal Processing Letters,对语音处理领域产生了重要影响。
当前挑战
DAPS数据集在构建过程中面临的挑战主要涉及如何在多种设备和环境中捕捉并保持语音质量的一致性。研究领域的问题包括如何将消费设备在真实世界环境中的录音自动转换为专业级别的语音制品。此外,数据集构建过程中还需克服的技术挑战包括语音的增强、噪声抑制、回声消除以及语音转换等,以确保录音的可用性和研究价值。
常用场景
经典使用场景
在语音信号处理领域,DAPS数据集被广泛应用于模拟真实世界环境中的语音录制,其经典使用场景在于提供了一种将日常消费设备录制的语音转换为专业录音的方法。该数据集包含多种环境下的录音样本,为研究者提供了丰富的实验材料,以便于分析和改进语音转换算法。
解决学术问题
DAPS数据集解决了传统语音增强和自动语音制作中遇到的现实世界噪音和设备特性的挑战。它为学术研究提供了有力的工具,使得研究者可以在控制条件下评估和提升语音转换技术的性能,从而推动了语音信号处理领域的发展。
衍生相关工作
基于DAPS数据集,学术界衍生出了一系列相关研究工作,包括对语音转换、语音增强和噪声抑制技术的深入探索。这些研究不仅推动了对原始数据集的深入理解,还促进了新算法和模型的发展,为语音信号处理领域带来了新的视角和方法。
以上内容由遇见数据集搜集并总结生成



