Human Voice Dataset

github2023-05-31 更新2024-05-31 收录

下载链接：

https://github.com/vocobox/human-voice-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个基于不同歌唱方式（音高、元音、辅音等）收集的人声录音集合。该数据集旨在简化基于声音的音乐控制器研究，帮助基准声音特征检测算法（如音高检测、起始检测），并为机器学习算法形成训练语料库。

A collection of vocal recordings based on various singing techniques (pitch, vowels, consonants, etc.). This dataset aims to facilitate research on sound-based music controllers, assist in benchmarking sound feature detection algorithms (such as pitch detection, onset detection), and form a training corpus for machine learning algorithms.

创建时间：

2014-12-28

原始信息汇总

数据集概述

数据集名称

Human Voice Dataset

数据集目的

该数据集旨在支持基于声音的音乐控制器研究，可用于基准测试声音特征检测算法（如音高检测、起始检测），并为机器学习算法提供训练语料。

数据集内容

声音特征：
- 音符：从最低到最高范围的半音间隔探索，如 c3.wav, c#3.wav, d3.wav 等。
- 元音：形成有限值的维度，如 _-a-[note].wav, _-e-[note].wav 等。
- 辅音：需要与元音结合发音，如 t-a-[note].wav, t-u-[note].wav 等。
数据集结构：
- 文件命名模式：[辅音]-[元音]-[音符]-[动态].wav
- 目录结构：
  - data/voices/
    - [歌手]/
      - notes/
        
        sources/
        
        exports/
      - voyels/
        
        sources/
        
        exports/
      - consonants/
        
        sources/
        
        exports/

数据集版本

当前版本提供1位歌手的录音，未来几周内数据集将扩充。

数据集使用

录音设备：Roland R05
录音条件：录音设备距离歌手口部20cm，每音符演唱3至10次，持续1秒，速度为60。
录音文件存储：
- [歌手]/[系列]/sources/[名称].wav
- [歌手]/[系列]/source/record.properties
- [歌手]/[系列]/source/singer.properties

数据集扩展

添加样本步骤：
- 克隆仓库：git clone https://github.com/vocobox/human-voice-dataset.git
- 添加新歌手文件夹并提交更改。

相关数据集

钢琴音符数据集：MAPS Database
歌唱声音数据集：SingingVoiceDataset
语音数据库：CMU Sphinx, VoxForge, TED-LIUM Corpus
声音和乐器数据集：IRMAS

搜集汇总

数据集介绍

构建方式

Human Voice Dataset的构建基于多种歌唱方式，包括音符音高、元音和辅音等。数据集通过钢琴和节拍器辅助，使用Roland R05录音设备在距离歌手20厘米处进行录音。每个音符以60的节奏演唱3至10次，每次持续1秒。录音后，使用Audacity精确设置声音事件的开始和结束，并导出每个音符的声音片段。录音条件和歌手信息分别保存在record.properties和singer.properties文件中。

特点

该数据集的特点在于其多维度的声音特征枚举，包括从最低到最高音域的音符、有限的元音值（a, e, i等）以及辅音与元音的组合。数据集提供了24个音符的音域范围（C1-C3），并计划在未来扩展更多元音和辅音的组合。此外，数据集还包含动态特征，如音量变化、音高弯曲和颤音，为声音特征检测算法提供了丰富的训练和测试材料。

使用方法

Human Voice Dataset可用于声音特征检测算法的基准测试，如音高检测和起始检测，也可作为机器学习算法的训练语料库。用户可以通过GitHub克隆该数据集，并按照提供的步骤添加新的歌手录音。数据集的结构清晰，每个音符、元音和辅音的组合都以特定的命名模式保存，便于用户浏览和使用。此外，Vocobox应用程序提供了多种音高检测评估方式，包括批量评估和实时麦克风评估，进一步增强了数据集的应用价值。

背景与挑战

背景概述

Human Voice Dataset 是一个专注于人类声音记录的数据集，旨在支持基于声音的音乐控制器研究。该数据集由 Vocobox 团队创建，最初版本发布于2014年，主要记录了一位法国男性歌手的演唱数据。数据集涵盖了从最低到最高音域的音符、元音、辅音等多种声音特征，并通过半音阶间隔进行详细标注。其核心研究问题在于如何通过声音特征检测算法（如音高检测、起始检测）来提升音乐控制器的性能。该数据集为机器学习算法提供了一个高质量的训练语料库，并在声音特征分析和音乐信息检索领域具有重要影响力。

当前挑战

Human Voice Dataset 面临的挑战主要体现在两个方面。首先，在领域问题方面，尽管数据集为音高检测和起始检测提供了基准，但如何进一步提高算法的鲁棒性和准确性仍是一个关键挑战，尤其是在处理复杂的声音动态（如音量变化、音高弯曲和颤音）时。其次，在数据构建过程中，确保声音样本的高质量和一致性是一个技术难点。例如，录制过程中需要精确控制录音设备的位置和环境噪声，同时还需通过手动标注和切片来确保每个音符的起始和结束时间准确无误。此外，数据集的扩展也面临挑战，如何高效地整合更多歌手的声音样本并保持数据格式的一致性仍需进一步探索。

常用场景

经典使用场景

Human Voice Dataset 主要用于研究和开发基于声音的音乐控制器。该数据集通过提供不同音高、元音和辅音的录音，为声音特征检测算法（如音高检测、起始检测）提供了基准测试平台。此外，它还为机器学习算法提供了训练语料库，特别是在音乐信息检索和声音合成领域。

解决学术问题

该数据集解决了声音特征提取和分类中的多个学术问题。通过提供详细的音高、元音和辅音录音，研究人员可以更准确地分析和理解人类声音的声学特性。这不仅有助于改进现有的音高检测算法，还为声音合成和音乐信息检索领域提供了新的研究方向。

衍生相关工作

基于 Human Voice Dataset，许多相关研究得以展开。例如，Vocobox 应用程序利用该数据集进行音高检测的批量评估和实时评估。此外，该数据集还催生了多个声音合成和音乐信息检索的研究项目，进一步推动了声音技术在音乐和语音处理领域的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集