vxp-perspeak-withprom-fixedv1

Hugging Face2024-12-14 更新2024-12-15 收录

下载链接：

https://huggingface.co/datasets/prosodyntax/vxp-perspeak-withprom-fixedv1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种语言的语音和语言学特征数据，每种语言都有相同的特征集，包括语音单位、单位持续时间、音素、音素持续时间、多词标记、联合发音、词性、头部、依存关系、UD ID、句子ID、说话者、重音强度、边界强度和块标签。数据集分为训练集，每种语言的训练集大小和示例数量不同。

创建时间：

2024-12-13

原始信息汇总

数据集概述

数据集名称

vxp-perspeak-withprom-fixedv1

数据集配置

该数据集包含以下语言配置：

捷克语 (cs)
德语 (de)
西班牙语 (es)
法语 (fr)
克罗地亚语 (hr)
匈牙利语 (hu)
意大利语 (it)
荷兰语 (nl)
波兰语 (pl)
罗马尼亚语 (ro)

数据集特征

每个语言配置包含以下特征：

unit: 字符串类型
unit_duration: 浮点数序列
phones: 字符串序列
phones_duration: 浮点数序列的序列
multitoken_word: 字符串序列
joint_pronunciation: 字符串序列
pos: 字符串序列
head: 字符串序列
deprel: 字符串序列
ud_id: 字符串序列
sentence_id: 字符串类型
speaker: 字符串类型
prominence_strength: 浮点数类型
boundary_strength: 浮点数类型
chunk_lab: 字符串序列

数据集分割

每个语言配置仅包含训练集 (train)。

数据集大小

以下是各语言配置的训练集大小：

捷克语 (cs):
- 训练集样本数: 412319
- 训练集字节数: 118090457
- 下载大小: 22456695
- 数据集大小: 118090457
德语 (de):
- 训练集样本数: 1863582
- 训练集字节数: 513259504
- 下载大小: 95990934
- 数据集大小: 513259504
西班牙语 (es):
- 训练集样本数: 348324
- 训练集字节数: 95775880
- 下载大小: 18159981
- 数据集大小: 95775880
法语 (fr):
- 训练集样本数: 1645198
- 训练集字节数: 413762164
- 下载大小: 80398735
- 数据集大小: 413762164
克罗地亚语 (hr):
- 训练集样本数: 157315
- 训练集字节数: 45654342
- 下载大小: 8541537
- 数据集大小: 45654342
匈牙利语 (hu):
- 训练集样本数: 80928
- 训练集字节数: 19371816
- 下载大小: 3668537
- 数据集大小: 19371816
意大利语 (it):
- 训练集样本数: 226042
- 训练集字节数: 64670593
- 下载大小: 12728847
- 数据集大小: 64670593
荷兰语 (nl):
- 训练集样本数: 78777
- 训练集字节数: 21037584
- 下载大小: 3784788
- 数据集大小: 21037584
波兰语 (pl):
- 训练集样本数: 683666
- 训练集字节数: 201942250
- 下载大小: 38567745
- 数据集大小: 201942250
罗马尼亚语 (ro):
- 训练集样本数: 108678
- 训练集字节数: 28142065
- 下载大小: 5200718
- 数据集大小: 28142065

搜集汇总

数据集介绍

构建方式

vxp-perspeak-withprom-fixedv1数据集的构建基于多语言语音和语言特征的精细标注。该数据集涵盖了多种语言，包括捷克语、德语、西班牙语等，每种语言的训练数据均经过详细的语音单元、音素时长、词性、句法关系等多维度特征的标注。通过这种方式，数据集不仅捕捉了语音的基本信息，还包含了语义和语法层面的丰富细节，为语音处理和自然语言处理任务提供了坚实的基础。

特点

vxp-perspeak-withprom-fixedv1数据集的显著特点在于其多语言覆盖和精细的特征标注。每条数据记录不仅包含语音单元和音素时长，还涵盖了词性、句法关系、重音强度和边界强度等高级语言特征。这些特征使得该数据集在语音合成、语音识别以及自然语言理解等任务中具有广泛的应用潜力。此外，数据集的多样性和大规模样本量也为其在跨语言研究中的应用提供了有力支持。

使用方法

vxp-perspeak-withprom-fixedv1数据集适用于多种语音和语言处理任务。用户可以通过加载数据集中的不同语言配置，获取相应的训练数据。数据集提供了详细的特征字段，如语音单元、音素时长、词性标注等，用户可以根据具体任务需求选择合适的特征进行模型训练。此外，数据集支持大规模并行处理，适合用于深度学习模型的训练和评估，尤其是在多语言语音合成和语音识别领域。

背景与挑战

背景概述

vxp-perspeak-withprom-fixedv1数据集是由多个研究人员或机构共同创建的，旨在解决多语言语音处理中的关键问题。该数据集涵盖了多种语言，包括捷克语、德语、西班牙语、法语、克罗地亚语、匈牙利语、意大利语、荷兰语、波兰语和罗马尼亚语。其核心研究问题涉及语音单元、音素持续时间、多词标记、联合发音、词性、句法关系等多个方面，旨在为语音识别、自然语言处理等领域提供丰富的语言资源。该数据集的创建时间未明确提及，但其对多语言语音处理领域的贡献显著，为跨语言语音分析和模型训练提供了坚实的基础。

当前挑战

vxp-perspeak-withprom-fixedv1数据集在构建过程中面临多重挑战。首先，多语言数据的收集与标注需要克服语言多样性和文化差异带来的复杂性。其次，确保不同语言数据的质量和一致性是一个巨大的挑战，尤其是在音素持续时间和发音细节的精确标注上。此外，数据集的规模庞大，涉及多种语言和大量样本，如何高效管理和处理这些数据也是一个技术难题。最后，该数据集的应用场景广泛，从语音识别到自然语言处理，模型的泛化能力和跨语言迁移能力是未来研究的重要方向。

常用场景

经典使用场景

vxp-perspeak-withprom-fixedv1数据集在语音处理领域中具有广泛的应用，尤其是在语音合成与语音识别任务中。该数据集通过提供详细的语音单元、音素时长、词性标注等信息，使得研究者能够构建更为精准的语音模型。其经典使用场景包括基于音素的语音合成，通过分析音素时长与发音特征，生成自然流畅的语音输出；以及在语音识别中，利用音素与词性信息提升识别准确率。

衍生相关工作

vxp-perspeak-withprom-fixedv1数据集的发布催生了一系列相关研究与应用。首先，基于该数据集的语音合成模型在多个国际语音合成比赛中取得了优异成绩，推动了语音合成技术的进步。其次，研究者利用数据集中的音素与词性信息，开发了更为精准的语音识别算法，提升了语音识别的准确性与鲁棒性。此外，该数据集还为语音情感分析、语音韵律建模等新兴研究领域提供了丰富的数据支持，促进了相关领域的快速发展。

数据集最近研究