Human Voice Dataset

github2021-06-19 更新2024-05-31 收录

下载链接：

https://github.com/lwyanne/human-voice-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个基于各种歌唱方式（音高、元音、辅音等）的人类语音记录集合。该数据集旨在简化基于语音的音乐控制器研究，可用于基准测试语音特征检测算法（音高检测、起始检测），以及作为机器学习算法的训练语料库。

A collection of human vocal recordings covering various singing-related features including pitch, vowels, consonants, and more. This dataset is designed to streamline research on voice-based musical controllers, and can be used to benchmark speech feature detection algorithms such as pitch detection and onset detection, as well as serve as a training corpus for machine learning algorithms.

创建时间：

2018-05-29

原始信息汇总

Human Voice Dataset

数据集概述

目的：该数据集旨在简化基于人声的音乐控制器的研究，有助于基准测试声音特征检测算法（如音高检测、起始检测）以及形成机器学习算法的训练语料库。
当前版本：提供1位歌手的录音，未来几周内数据集将扩展。

声音特征

音符：从最低到最高范围以半音间隔探索，例如：c3.wav, c#3.wav, d3.wav, ...
元音：形成有限值的维度（a, e, i, ...），例如：_-a-[note].wav, _-e-[note].wav, ...
辅音：需要与元音一起发音以可理解，例如：t-a-[note].wav, t-u-[note].wav, ...
动态：音量变化、音高弯曲、颤音（目前不可用）

数据集结构

文件命名模式：[consonant]-[voyel]-[note]-[dynamic].wav
目录结构：
- data/voices/
  - martin/
    - notes/
      - sources/
      - exports/
    - voyels/
      - sources/
      - exports/
    - consonants/
      - sources/
      - exports/

歌手信息

属性文件：
- singer.properties：包含年龄、性别、国籍等信息。
- recorder.properties：包含录音设备、录音条件等信息。

数据集扩展

添加样本步骤：
1. 克隆仓库：git clone https://github.com/vocobox/human-voice-dataset.git
2. 复制歌手文件夹并提交更改：git add ., git commit -m "[new singer] barbara", git push origin master

其他有用声音数据集

钢琴音符数据集：MAPS Database
歌唱声音数据集：Singing Voice Dataset
语音数据库：CMU Speech, VoxForge, TED-LIUM Corpus
声音和乐器：IRMAS Dataset

搜集汇总

数据集介绍

构建方式

Human Voice Dataset的构建过程体现了对声音特征的细致捕捉与系统化整理。该数据集通过使用钢琴和节拍器辅助歌手进行音高和时长的控制，采用Roland R05录音设备在距离歌手口部20厘米处进行录音。每个音符以60的节拍被重复演唱3至10次，每次持续1秒，随后使用Audacity软件对录音进行精确切片，确保每个音符的起始和结束点准确无误。录音条件和歌手信息被详细记录在相应的属性文件中，以便后续分析和使用。

特点

Human Voice Dataset以其多维度的声音特征而著称，涵盖了从最低到最高音域的半音阶音符、元音（如a, e, i等）以及辅音（如t, d, b等）的发音组合。每个音符、元音和辅音的组合均以独立的.wav文件形式存储，便于研究人员进行音高检测、起始点检测等算法的基准测试。此外，数据集还计划扩展包含动态特征（如音量变化、音高弯曲和颤音）的样本，进一步丰富其应用场景。

使用方法

Human Voice Dataset的使用方法灵活多样，适用于声音特征检测算法的基准测试和机器学习模型的训练。研究人员可以通过克隆GitHub仓库获取数据集，并按照提供的目录结构进行浏览和使用。数据集中的每个音符、元音和辅音文件均以标准化的命名规则存储，便于快速定位和分析。此外，Vocobox应用程序提供了多种音高检测评估方式，包括批量评估和实时麦克风评估，帮助用户深入挖掘数据集的价值。

背景与挑战

背景概述

Human Voice Dataset 是一个专注于人类声音记录的数据集，旨在支持基于声音的音乐控制器研究。该数据集由法国研究团队于2014年创建，主要研究人员使用Roland R05录音设备在严格控制的条件下录制了不同音高、元音和辅音的声音样本。数据集的核心研究问题在于如何通过声音特征检测算法（如音高检测、起始检测）来提升音乐控制器的性能。该数据集为机器学习算法提供了训练语料库，并在声音特征分析领域具有重要影响力。

当前挑战

Human Voice Dataset 面临的挑战主要集中在两个方面。首先，声音特征的多样性和复杂性使得数据集的构建过程极具挑战性。例如，音高、元音和辅音的组合需要精确控制，以确保数据的准确性和一致性。其次，数据集的扩展性也是一个重要问题。当前版本仅包含一名歌手的录音样本，未来需要增加更多歌手的声音数据以提高数据集的代表性和泛化能力。此外，声音样本的录制和分割过程需要高度精确的技术支持，以确保每个音符的起始和结束时间能够被准确标记。

常用场景

经典使用场景

Human Voice Dataset 主要用于研究和开发基于声音的音乐控制器，特别是在音高检测和起始点检测算法的基准测试中。该数据集通过提供不同音高、元音和辅音的录音，为研究人员提供了一个丰富的训练和测试环境，以验证和改进他们的算法。

衍生相关工作

基于 Human Voice Dataset，许多相关的研究工作得以展开，包括但不限于音高检测算法的优化、声音特征提取技术的改进以及新型音乐控制器的开发。这些工作不仅推动了声音处理技术的发展，也为音乐信息检索和语音识别领域提供了新的研究方向。

数据集最近研究