Human Voice Dataset

github2015-10-15 更新2024-05-31 收录

下载链接：

https://github.com/EQ4/human-voice-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个基于不同歌唱方式（音高、元音、辅音等）的人类声音记录集合，旨在简化基于声音的音乐控制器研究。它可以帮助基准测试声音特征检测算法（如音高检测、起始检测），并为机器学习算法形成训练语料库。

A collection of human voice recordings based on various singing techniques (pitch, vowels, consonants, etc.), designed to facilitate research on voice-based music controllers. It can assist in benchmarking sound feature detection algorithms (such as pitch detection, onset detection) and serve as a training corpus for machine learning algorithms.

创建时间：

2015-10-15

原始信息汇总

数据集概述

数据集名称

Human Voice Dataset

数据集目的

该数据集旨在支持声音控制器研究，用于基准测试声音特征检测算法（如音高检测、起始检测），并为机器学习算法提供训练语料。

数据集内容

声音特征：包括音符、元音、辅音等。
- 音符：从最低到最高范围探索，以半音间隔记录，如c3.wav, c#3.wav, d3.wav等。
- 元音：以有限值表示，如_-a-[note].wav, _-e-[note].wav等。
- 辅音：与元音结合使用，如t-a-[note].wav, t-u-[note].wav等。

数据集结构

文件命名模式：[辅音]-[元音]-[音符]-[动态].wav
- 辅音：_, t, d, b, l, ...
- 元音：a, e, i, ...
- 音符：c3, c#3, d3, ...
- 动态：_, vibrator, bend, ...
数据集目录结构：
- data/voices/
  - [singer]/
    - notes/
      - sources/
        
        notes.wav
        
        notes-markers.txt
        
        recording.properties
        
        singer.properties
      - exports/
        
        mono-44100/
        
        mono-22050/
        
        c3-_-a.wav
        
        c#3.wav
        
        ...
    - voyels/
      - sources/
      - exports/
        
        mono-44100/
        
        _-a-c3.wav
        
        _-a-c4.wav
        
        _-a-c5.wav
        
        _-e-c3.wav
        
        _-i-c3.wav
        
        _-o-c3.wav
    - consonants/
      - sources/
      - exports/
        
        mono-44100/
        
        b-a-c3.wav
        
        b-e-c3.wav
        
        b-a-g2.wav
        
        b-e-g2.wav

数据集扩展

录音设备：使用Roland R05录音设备，距离歌手口部20cm。
录音过程：每个音符演唱3至10次，持续1秒，速度为60。
录音信息：记录在[singer]/[serie]/sources/singer.properties和recorder.properties中。
音符分割：使用Audacity精确设置声音事件的开始和结束，并导出每个音符的声音切片。

数据集贡献

贡献者可通过克隆仓库并添加新的[singer]文件夹来扩展数据集。

相关数据集

MAPS Database
Singing Voice Dataset
Speech databases
Voices and instruments

搜集汇总

数据集介绍

构建方式

Human Voice Dataset 是基于不同歌唱方式（如音高、元音、辅音等）构建的人类语音记录集合。数据集的构建目的是为了便于研究基于语音的音乐控制器，并协助评估音高检测、起始检测等语音特征检测算法，同时作为机器学习算法的训练语料库。该数据集目前提供了1位歌手的录音记录，并计划在未来几周内扩展。构建过程中，每位歌手的每个音符被录制多次，并在不同条件下（如不同的元音和辅音组合）进行切片和标记，以形成最终的音频文件。

特点

该数据集的特点在于其多维度的语音特征列举，包括从最低到最高可能的音域范围内的音符，以及有限的元音值（如a, e, i等）。此外，某些特征（如辅音）需要与元音结合发音才能被理解，因此数据集中包含了相应的组合录音。当前版本的数据集虽然只提供了一位歌手的记录，但包含了音符、元音和辅音等多个维度，未来将增加更多样本。数据集的结构按照特定的命名模式组织，便于检索和利用。

使用方法

使用该数据集时，用户可以在线浏览或下载音频样本。每个音符的录音都包括原始录音、标记文件和歌手及录音设备的属性描述。用户可以通过GitHub仓库中的指南添加新的语音样本，包括录制设备、录音过程、音符切片和标记等步骤。此外，Vocobox应用程序允许用户以多种方式评估音高检测，包括对音符数据集的批量评估和实时麦克风评估等。

背景与挑战

背景概述

Human Voice Dataset 是专为研究声音基音乐控制器而构建的数据集，旨在为评估音高检测、起音检测等语音特征检测算法提供基准，并形成机器学习算法的训练语料库。该数据集由Vocobox团队创建于2014年，目前提供了一名男性的声音记录，并计划在未来几周内扩展。数据集在音乐信息检索、语音合成等领域具有重要影响力，为相关研究提供了宝贵的资源。

当前挑战

该数据集在构建过程中面临的挑战包括：确保录音质量的一致性、精确标注每个语音事件以及构建多维度的语音特征。研究领域的挑战则体现在如何利用该数据集有效提升音高检测和起音检测算法的性能，以及如何将其应用于更广泛的语音合成和音乐理解任务中。此外，数据集的扩展和多样化也是未来需要解决的问题，以适应不同研究需求。

常用场景

经典使用场景

在音乐信号处理领域，Human Voice Dataset数据集以其对人类歌唱声音的详尽记录而成为研究者的宝贵资源。该数据集经典的使用场景在于，研究者利用其丰富的音高、元音、辅音等维度信息，进行音高检测、起始检测等算法的基准测试，以及为机器学习算法提供训练语料库。

衍生相关工作

基于该数据集，研究者已衍生出多项相关工作，如音高检测算法改进、音乐生成模型构建等。这些工作不仅扩展了数据集的应用范围，也为音乐信号处理领域带来了新的研究视角和方法论。

数据集最近研究