Deeply Korean Read Speech Corpus

github2022-01-13 更新2024-05-31 收录

下载链接：

https://github.com/deeplyinc/Korean-Read-Speech-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含韩国说话者阅读带有三种不同文本情感（负面、中性、正面）和三种不同语音情感（负面、中性、正面）的脚本。录音在三种不同类型的地点进行，包括消声室、工作室公寓和舞蹈工作室，这些地点的混响程度不同。此外，每项实验都使用两种智能手机（iPhone X和Galaxy S7）在三种不同的距离上进行录音。

This dataset comprises recordings of Korean speakers reading scripts imbued with three distinct textual emotions (negative, neutral, positive) and three different vocal emotions (negative, neutral, positive). The recordings were conducted in three types of locations, including an anechoic chamber, a studio apartment, and a dance studio, each characterized by varying degrees of reverberation. Furthermore, each experiment utilized two types of smartphones (iPhone X and Galaxy S7) to capture audio at three different distances.

创建时间：

2021-01-26

原始信息汇总

数据集概述

数据集名称

Deeply Korean Read Speech Corpus

数据内容

文本情感: 包含三种情感（负面、中性、正面）。
语音情感: 包含三种情感（负面、中性、正面）。
录音环境: 三种不同环境（无回声室、工作室公寓、舞蹈工作室），具有不同的混响水平。
录音设备: 使用两种智能手机（iPhone X 和 Galaxy S7）。
录音距离: 三种距离（0.4m, 2.0m, 4.0m）。
数据量: 约290小时，190,000条语音，约107GB。
格式: wav/h5 (16/44.1kHz, 16-bit, mono)。
语言: 韩语。

录音设置

每组两人，面对面1.4m距离，交替朗读剧本。

数据集结构

├── Dataset │ ├── AirbnbStudio │ │ ├── sub100100a00000.wav │ │ └── ... │ ├── AnechoicChamber │ │ ├── sub100120a00000.wav │ │ └── ... │ ├── DanceStudio │ │ ├── sub100110a00000.wav │ │ └── ... │ └── Korean_Read_Speech_Corpus.json └── docs ├── Deeply Korean Read Speech Corpus_Eng.pdf └── Deeply Korean Read Speech Corpus_Kor.pdf

数据集元数据

文本情感: {-1: 负面, 0: 中性, 1: 正面}
语音情感: {-1: 负面, 0: 中性, 1: 正面}
性别: {0: 女性, 1: 男性}
噪音: {0: 无噪音, 1: 室内噪音, 2: 室外噪音, 3: 室内外噪音}
位置: {0: 工作室公寓, 1: 舞蹈工作室, 2: 无回声室}
距离: {0: 0.4m, 1: 2.0m, 2: 4.0m}
设备: {0: iPhone X, 1: Galaxy S7}

许可证

Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0)

搜集汇总

数据集介绍

构建方式

Deeply Korean Read Speech Corpus 数据集的构建过程体现了高度的科学严谨性。该数据集通过记录韩语说话者在三种不同情感（负面、中性、正面）的文本和语音表达下的朗读，结合三种不同声学环境（消声室、公寓、舞蹈室）以及三种不同录音距离（0.4米、2.0米、4.0米）和两种智能手机设备（iPhone X 和 Galaxy S7）进行采集。每组实验由两名说话者面对面进行，确保数据的多样性和真实性。

特点

该数据集的特点在于其多维度的数据采集方式，涵盖了情感、环境、距离和设备等多个变量。数据集中包含约290小时的录音，约190,000条语音片段，总数据量约为107GB。所有录音均以wav/h5格式存储，采样率为16/44.1kHz，16位单声道。此外，数据集还提供了详细的元数据，如说话者年龄、性别、录音环境、设备类型等，为语音情感分析和声学研究提供了丰富的实验基础。

使用方法

使用该数据集时，用户可通过提供的JSON文件获取每条录音的详细元数据，包括文本情感、语音情感、说话者信息、录音环境和设备类型等。数据集的结构清晰，按录音环境分类存储，便于用户根据研究需求进行筛选和分析。用户还可通过提供的文档和统计图表进一步了解数据集的分布特征。数据集适用于语音情感识别、声学环境分析、语音合成等多个领域的研究。

背景与挑战

背景概述

Deeply Korean Read Speech Corpus是由Deeply Inc.创建的一个韩语朗读语音数据集，旨在研究语音情感与文本情感之间的关系。该数据集记录了韩语说话者在不同环境、不同设备、不同距离下朗读具有不同情感色彩的文本。数据集涵盖了三种文本情感（负面、中性、正面）和三种语音情感（负面、中性、正面），并在三种不同声学环境（消声室、公寓、舞蹈室）中进行录制。通过这种方式，数据集为语音情感分析、语音识别以及环境对语音质量的影响等研究提供了丰富的实验材料。该数据集的研究背景源于对多模态情感分析的深入探索，尤其是在韩语语境下的情感表达与感知。

当前挑战

Deeply Korean Read Speech Corpus在构建过程中面临多重挑战。首先，语音情感与文本情感之间的复杂关系需要精确的标注与对齐，这对数据集的构建提出了高要求。其次，不同录音环境（如消声室、公寓、舞蹈室）对语音信号的影响显著，如何在多变的声学条件下保持数据的一致性与质量是一个技术难题。此外，数据集的规模庞大，涉及多种变量（如设备、距离、情感等），如何高效地组织与管理这些数据也是一个重要挑战。最后，数据集的开放性与隐私保护之间的平衡也需要谨慎处理，以确保数据的合法使用与共享。

常用场景

经典使用场景

Deeply Korean Read Speech Corpus数据集在语音情感识别和语音合成领域具有广泛的应用。通过记录不同情感状态下的韩语朗读语音，该数据集为研究者提供了一个丰富的资源，用于训练和测试情感识别模型。特别是在多情感状态、多环境条件下的语音数据采集，使得该数据集在模拟真实世界场景中的语音情感分析中表现出色。

实际应用

在实际应用中，Deeply Korean Read Speech Corpus数据集可用于开发智能语音助手、情感分析系统以及语音合成技术。例如，智能语音助手可以通过分析用户语音中的情感状态，提供更加个性化的服务。此外，该数据集还可用于教育领域，帮助开发基于语音的情感识别教学工具，提升语言学习的效果。

衍生相关工作

基于Deeply Korean Read Speech Corpus数据集，许多经典的研究工作得以展开。例如，研究者利用该数据集开发了基于深度学习的多情感语音识别模型，显著提升了情感分类的准确率。此外，该数据集还被用于研究环境噪声对语音情感识别的影响，推动了鲁棒性语音情感识别算法的发展。这些工作不仅验证了数据集的有效性，也为后续研究提供了宝贵的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集