dataspeech_Genshin4.8_CN_v2
收藏Hugging Face2024-10-11 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/devilga/dataspeech_Genshin4.8_CN_v2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个与语音和文本相关的特征,如原始文本、处理后的文本、说话者信息、情感信息、音高、信噪比、语音单调性等。情感信息包含多个子特征,如特征值、关键字、标签和分数。数据集分为训练集和测试集,分别包含87112和21779个样本。数据集的总下载大小为673453146字节,总大小为603502615字节。
创建时间:
2024-10-11
原始信息汇总
数据集概述
数据集信息
特征
- text_original: 原始文本,数据类型为字符串。
- text: 处理后的文本,数据类型为字符串。
- spk: 说话者信息,数据类型为浮点数序列。
- emo: 情感信息,包含以下子特征:
- feats: 特征值,数据类型为浮点数序列。
- key: 关键字,数据类型为字符串。
- labels: 标签,数据类型为字符串序列。
- scores: 分数,数据类型为浮点数序列。
- utterance_pitch_mean: 语音音调均值,数据类型为浮点数。
- utterance_pitch_std: 语音音调标准差,数据类型为浮点数。
- snr: 信噪比,数据类型为浮点数。
- c50: C50值,数据类型为浮点数。
- speaking_rate: 说话速率,数据类型为字符串。
- phonemes: 音素,数据类型为字符串序列。
- stoi: 语音清晰度指标,数据类型为浮点数。
- si-sdr: 语音失真比,数据类型为浮点数。
- pesq: 语音质量感知评估,数据类型为浮点数。
- noise: 噪声类型,数据类型为字符串。
- reverberation: 混响类型,数据类型为字符串。
- speech_monotony: 语音单调性,数据类型为字符串。
- sdr_noise: 噪声失真比,数据类型为字符串。
- pesq_speech_quality: 语音质量感知评估,数据类型为字符串。
数据集划分
- train: 训练集,包含87112个样本,占用482773830字节。
- test: 测试集,包含21779个样本,占用120728785字节。
数据集大小
- 下载大小: 673453146字节。
- 数据集大小: 603502615字节。
配置
- config_name: default
- data_files:
- train: 数据路径为
data/train-*。 - test: 数据路径为
data/test-*。
- train: 数据路径为
- data_files:
搜集汇总
数据集介绍

构建方式
dataspeech_Genshin4.8_CN_v2数据集的构建基于对中文语音数据的深度采集与处理。该数据集通过多维度特征提取,涵盖了语音的原始文本、情感分析、音高统计、信噪比等多个关键指标。数据来源包括真实场景下的语音录制,确保了数据的多样性与真实性。在数据处理过程中,采用了先进的语音信号处理技术,如STOI、SI-SDR和PESQ等,以量化语音质量与清晰度。数据集被划分为训练集和测试集,分别包含87112和21779个样本,确保了模型训练与评估的全面性。
特点
dataspeech_Genshin4.8_CN_v2数据集以其丰富的特征维度著称,涵盖了语音的文本、情感、音高、信噪比、语音质量等多个方面。情感分析部分通过结构化数据呈现,包括情感特征、关键词、标签及得分,为情感识别任务提供了详实的基础。音高统计与语音质量指标如STOI、SI-SDR和PESQ的引入,使得该数据集在语音分析与合成领域具有较高的应用价值。此外,数据集还包含了语音的单调性、噪声类型及混响信息,为语音增强与降噪研究提供了重要支持。
使用方法
dataspeech_Genshin4.8_CN_v2数据集适用于多种语音处理任务,包括语音情感识别、语音质量评估、语音增强与合成等。用户可通过加载训练集与测试集进行模型训练与性能评估。数据集中的多维特征可直接用于特征工程,或作为深度学习模型的输入。对于情感分析任务,可利用情感特征与标签进行模型训练;对于语音质量评估,可结合STOI、SI-SDR和PESQ指标进行量化分析。数据集的丰富特征与高质量标注为语音处理研究提供了坚实的基础。
背景与挑战
背景概述
dataspeech_Genshin4.8_CN_v2数据集是一个专注于中文语音处理的多维度数据集,旨在为语音识别、情感分析以及语音质量评估等领域提供丰富的数据支持。该数据集由专业研究团队构建,涵盖了语音信号的多个特征,如音高、信噪比、语音清晰度等,并包含了情感标签和语音质量评分。其创建时间与具体研究机构虽未明确提及,但其多维度的数据特征和广泛的应用场景使其在语音处理领域具有重要的研究价值。该数据集的发布为中文语音处理技术的进一步发展提供了坚实的基础,尤其在情感识别和语音质量评估等复杂任务中展现了显著的应用潜力。
当前挑战
dataspeech_Genshin4.8_CN_v2数据集在构建和应用过程中面临多重挑战。首先,语音数据的多样性和复杂性使得情感标签的标注和语音质量评分的标准化成为难点,需要高精度的人工标注和复杂的算法支持。其次,语音信号中的噪声和混响等环境因素对数据质量产生显著影响,如何在数据采集和预处理阶段有效去除这些干扰因素是一个技术难题。此外,数据集的多维度特征要求研究人员在模型设计和训练过程中进行精细的特征选择和融合,以充分利用数据信息。这些挑战不仅考验数据集的构建质量,也对后续的语音处理技术研究提出了更高的要求。
常用场景
经典使用场景
在语音处理和情感计算领域,dataspeech_Genshin4.8_CN_v2数据集被广泛用于训练和评估语音识别、情感分析以及语音质量评估模型。其丰富的特征集,如音高、信噪比、语音单调性等,为研究者提供了多维度的语音数据,使得模型能够更准确地捕捉语音中的情感和语义信息。
解决学术问题
该数据集解决了语音处理领域中情感识别和语音质量评估的难题。通过提供详细的语音特征和情感标签,研究者能够开发出更精确的情感识别模型,同时利用信噪比和语音质量指标,优化语音增强和降噪算法,提升语音处理系统的整体性能。
衍生相关工作
基于dataspeech_Genshin4.8_CN_v2数据集,研究者们开发了多种先进的语音处理模型和算法。例如,利用该数据集的情感标签和语音特征,研究者提出了基于深度学习的多模态情感识别模型,显著提升了情感识别的准确率。此外,该数据集还被用于优化语音增强算法,提高了语音信号在噪声环境下的清晰度和可懂度。
以上内容由遇见数据集搜集并总结生成



