VocalSketchDataSet

github2023-01-31 更新2024-05-31 收录

下载链接：

https://github.com/interactiveaudiolab/VocalSketchDataSet

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含数千个众包的语音模仿录音，这些录音模仿了大量多样化的声音，如日常声音和音乐概念，并附有众包人员正确标记这些语音模仿的数据。此数据集旨在帮助研究社区理解哪些音频概念可以通过这种方法有效传达，并支持构建利用语音模仿作为交互模式的系统。

This dataset comprises thousands of crowdsourced voice imitation recordings, which mimic a wide variety of sounds such as everyday noises and musical concepts, accompanied by accurately labeled data by the crowdworkers. The dataset is designed to assist the research community in understanding which audio concepts can be effectively communicated through this method and to support the development of systems that utilize voice imitation as an interactive mode.

创建时间：

2015-01-06

原始信息汇总

数据集概述

本数据集包含数千个众包的语音模仿录音，涵盖多种声音，并附有众包参与者正确标记这些语音模仿的数据。该数据集旨在帮助研究社区理解哪些音频概念可以通过此方法有效传达，并支持构建利用语音模仿作为交互模式的系统。

数据集内容

语音模仿录音
- included: 符合纳入标准的语音模仿录音，用于分析。
- excluded: 不符合纳入标准的语音模仿录音，未用于分析。
- set2/included: 第二组符合标准的语音模仿录音。
- set2/excluded: 第二组不符合标准的语音模仿录音。
声音录音
- 包含参与者在进行语音模仿前听到的声音录音。

CSV文件描述

sound_recordings.csv
- id: 声音录音的标识符。
- sound_label: 与声音录音相关的标签。
- sound_label_id: 声音标签的标识符。
- filename: 声音录音的文件名。
- audio_concept_subset: 声音录音所属的音频概念子集。
sound_labels.csv
- id: 声音标签的标识符。
- label: 声音标签的文本描述。
- audio_concept_subset: 声音标签所属的音频概念子集。
vocal_imitations.csv 和 vocal_imitations_set2.csv
- id: 语音模仿的标识符。
- filename: 语音模仿的文件名。
- stimulus_type: 刺激类型（声音标签或声音录音）。
- included: 是否符合纳入标准。
- draft: 是否为草稿。
- training: 是否用于练习。
- participant_id: 参与者的标识符。
- satisfaction: 参与者对语音模仿的满意度。
- sound_label: 声音标签。
- sound_label_id: 声音标签的标识符。
- sound_recording: 声音录音。
- sound_recording_id: 声音录音的标识符。
- audio_concept_subset: 刺激所属的音频概念子集。
- participants_sound_recording_description: 参与者对声音录音的描述。
- participants_sound_recording_description_confidence: 参与者对描述的信心。
- description_match: 描述是否正确。
identifications.csv
- id: 识别的标识符。
- identification_type: 识别类型（声音标签或声音录音）。
- training: 是否用于练习。
- participant_id: 参与者的标识符。
- vocal_imitation_id: 语音模仿的标识符。
- sound_label: 参考音频概念的声音标签。
- sound_recording: 参考音频概念的声音录音文件名。
- sound_label_id: 声音标签的标识符。
- sound_recording_id: 声音录音的标识符。
- audio_concept_subset: 刺激概念所属的音频概念子集。
- vocal_imitation_filename: 语音模仿的音频文件名。
- participants_vocal_imitation_description: 参与者对语音模仿的描述。
- participants_vocal_imitation_description_confidence: 参与者对描述的信心。
- selection_sound_label: 参与者选择的强制选择识别任务的声音标签。
- selection_sound_label_id: 参与者选择的声音标签的标识符。
- selection_sound_recording: 参与者选择的强制选择识别任务的声音录音文件名。
- selection_sound_recording_id: 参与者选择的声音录音的标识符。
- selection_confidence: 参与者对强制选择的信心。
- selection_match: 强制选择是否正确。
- distractor0_id 至 distractor8_id: 干扰项的标识符。
- description_match: 描述是否正确。
participant_survey.csv 和 participant_survey_set2.csv
- participant_id: 参与者的标识符。
- age: 参与者的年龄。
- gender: 参与者的性别。
- hearing_problems: 参与者是否有听力问题。
- speech_problems: 参与者是否有言语问题。
- years_actively_using_music_tech: 参与者使用音频/音乐制作技术的年数。
- frequency_using_music_tech: 参与者使用音频/音乐制作技术的频率。
- years_actively_making_music: 参与者创作、练习或表演音乐的年数。
- frequency_making_music: 参与者创作、练习或表演音乐的频率。
- years_actively_singing: 参与者唱歌的年数。
- frequency_singing: 参与者唱歌的频率。
everyday_filename_translation.csv
- marcel_filename: Marcel数据集中的文件名。
- vocalsketch_filename: VocalSketch数据集中的文件名。

搜集汇总

数据集介绍

构建方式

VocalSketch数据集的构建基于众包方式，通过收集大量参与者对多样化声音的口头模仿录音。参与者首先听取参考声音，随后通过声音模仿表达其感知的音频概念。数据集不仅包含模仿录音，还记录了参与者对这些模仿的标签能力，以及他们对模仿效果的满意度评价。数据集的构建过程严格遵循科学实验设计，确保数据的多样性和代表性。

特点

VocalSketch数据集的特点在于其丰富的音频概念覆盖范围，涵盖了从日常声音到音乐合成的多样化声音类别。数据集不仅提供了声音模仿的录音文件，还包含了参与者的背景信息、模仿任务的详细描述以及标签识别的结果。这些数据为研究声音模仿作为一种交互方式的可行性提供了坚实的基础。此外，数据集还包含了参与者的满意度评分和描述匹配度，进一步增强了数据的深度和实用性。

使用方法

VocalSketch数据集的使用方法包括通过分析声音模仿录音与参考声音的匹配度，研究声音模仿作为交互方式的有效性。研究人员可以利用数据集中的CSV文件进行数据分析，探索不同音频概念的可模仿性，以及参与者在模仿任务中的表现。数据集还提供了详细的目录结构和列描述，便于用户快速定位所需数据。通过结合参与者的背景信息和任务表现，研究人员可以进一步探讨声音模仿在不同应用场景中的潜力。

背景与挑战

背景概述

VocalSketch数据集由Mark Cartwright和Bryan Pardo等人于2015年创建，旨在探索通过人声模仿音频概念的可行性。该数据集收录了数千条众包生成的人声模仿录音，涵盖了多样化的音频概念。研究团队通过分析这些录音，试图理解哪些音频概念能够通过人声模仿有效传达，并为开发基于人声模仿的交互系统提供数据支持。该数据集在人机交互和音频处理领域具有重要影响力，尤其是在音乐合成和音频检索等应用中展现了其独特价值。

当前挑战

VocalSketch数据集面临的主要挑战包括两个方面。首先，在领域问题层面，如何准确识别和分类人声模仿的音频概念是一个核心难题。由于人声模仿的多样性和主观性，构建能够有效理解和匹配这些模仿的算法具有较高的复杂性。其次，在数据集构建过程中，研究团队需要处理大量众包数据，确保录音质量的一致性，并筛选出符合研究标准的样本。此外，数据集中涉及的音频概念多样性也增加了数据标注和分类的难度，尤其是在处理日常声音时，如何确保标注的准确性和一致性成为一大挑战。

常用场景

经典使用场景

VocalSketch数据集在音频概念的人声模仿研究中具有重要应用。通过收集大量用户对多样化声音的人声模仿数据，该数据集为研究者提供了丰富的素材，用于分析人声模仿在传达音频概念时的有效性。这一数据集广泛应用于人机交互、音频合成和语音识别等领域，帮助研究者探索如何通过人声模仿实现自然的声音交互。

实际应用

在实际应用中，VocalSketch数据集为音乐合成、声音设计和语音交互系统的开发提供了重要参考。例如，音乐制作人可以通过人声模仿来快速生成特定的音效，设计师可以利用该数据集训练系统以识别用户的声音输入并生成相应的音频反馈。这些应用不仅提升了用户体验，还为声音创作和交互设计开辟了新的可能性。

衍生相关工作

基于VocalSketch数据集，研究者们开展了多项经典工作，如开发基于人声模仿的音乐合成系统和声音识别算法。这些工作进一步推动了音频概念传达的研究，并为相关领域的应用提供了技术支持。例如，一些研究利用该数据集训练深度学习模型，以提升系统对人声模仿的识别能力，从而实现了更自然的人机交互体验。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集