parlerTTS_bea100

Hugging Face2025-07-29 更新2025-07-30 收录

下载链接：

https://huggingface.co/datasets/TeodoraR/parlerTTS_bea100

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多个语音相关的特征，如文件名、说话人ID、文本内容、音素、音高平均值、音高标准差、信噪比、C50、说话速率、STOI、SI-SDR、PESQ等。此外，还包括性别、音调、噪声、混响、语音单调性等描述性信息。数据集分为训练集，共有100个样本。提供了默认配置，用于指定训练集的数据文件。

创建时间：

2025-07-29

原始信息汇总

数据集概述

基本信息

数据集名称: parlerTTS_bea100
下载大小: 27,223,038 字节
数据集大小: 27,403,006 字节
训练集样本数: 100
训练集大小: 27,403,006 字节

数据集特征

file_name: 字符串类型，文件名
speaker_id: 整型，说话者ID
text: 字符串类型，文本内容
phonemes: 字符串类型，音素
utterance_pitch_mean: 浮点型，语句音高均值
utterance_pitch_std: 浮点型，语句音高标准差
snr: 浮点型，信噪比
c50: 浮点型，C50参数
speaking_rate: 字符串类型，语速
stoi: 浮点型，短时客观可懂度
si-sdr: 浮点型，尺度不变的信噪比
pesq: 浮点型，语音质量评估
gender: 字符串类型，性别
pitch: 字符串类型，音高
noise: 字符串类型，噪声
reverberation: 字符串类型，混响
speech_monotony: 字符串类型，语音单调性
sdr_noise: 字符串类型，噪声信噪比
pesq_speech_quality: 字符串类型，语音质量
text_description: 字符串类型，文本描述
translation_gemma: 字符串类型，翻译内容
audio: 音频类型，音频数据

数据分割

训练集: 包含100个样本，路径为data/train-*

搜集汇总

数据集介绍

构建方式

在语音合成技术快速发展的背景下，parlerTTS_bea100数据集通过精心设计的采集流程构建而成。该数据集包含100个高质量的语音样本，每个样本均标注了丰富的声学特征和语言学信息。数据采集过程严格控制环境变量，确保音频质量的一致性，同时采用专业工具提取基频均值、信噪比、语音清晰度等声学参数。文本内容涵盖多样化语境，并辅以音素转录和Gemma模型生成的翻译文本，为多语言语音研究提供支持。

特点

该数据集的核心价值体现在多维度的精细标注体系上。除基础音频文件和文本转录外，每个样本包含18种声学特征指标，如基频统计量、语音质量感知评估分数等。特别值得注意的是，数据集采用分层标注策略，将噪声类型、混响程度等环境因素进行标准化分类。性别、语速等说话人特征与STOI、PESQ等客观音质指标的结合，为语音合成模型的细粒度优化提供了独特的数据视角。

使用方法

研究者可通过HuggingFace平台直接加载该数据集，其标准化的音频-文本对齐格式确保即插即用的兼容性。典型应用场景包括：基于声学特征的语音质量评估、多参数语音合成系统训练、以及音素级别的声音转换研究。数据集中提供的gemma翻译文本可支持跨语言语音合成任务，而丰富的元数据字段允许通过speaker_id或声学特征进行样本筛选，满足不同实验设计的需要。

背景与挑战

背景概述

parlerTTS_bea100数据集是近年来语音合成领域的重要资源，由专业研究团队构建，旨在推动高质量、多维度语音生成技术的发展。该数据集收录了100条语音样本，每条样本均包含丰富的声学特征（如基频均值、标准差、信噪比等）和语言学信息（如音素序列、语速描述等），并额外提供性别、噪声环境、混响条件等上下文标注。其核心价值在于通过精细的声学参数与自然语言描述的耦合，为可控语音合成模型提供了多模态训练基础。数据集的构建反映了当前语音技术从单一质量评价向可解释性、可控性发展的研究趋势，对个性化TTS系统和语音质量评估领域具有显著影响。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，如何准确建模声学特征（如基频动态、频谱包络）与主观听觉感知（如语音单调性、质量评分）之间的非线性关系，仍是语音合成质量控制的瓶颈问题；在构建过程中，多维度标注的一致性保障需要复杂的交叉验证流程，例如音素对齐精度易受说话人发音变异影响，而环境噪声与混响的客观指标（C50、STOI）需与人工听评结果反复校准。此外，小样本数据（仅100条）对表征多样性覆盖和模型泛化能力提出了更高要求。

常用场景

经典使用场景

在语音合成与语音质量评估领域，parlerTTS_bea100数据集因其丰富的声学特征标注而成为研究者的重要工具。该数据集包含100个语音样本，每个样本均标注了音高、信噪比、语音清晰度等关键参数，为开发高质量的文本转语音系统提供了标准化的评测基准。其多维度标注体系特别适合用于探索韵律建模与语音自然度的关联性研究。

衍生相关工作

基于该数据集的特征体系，MIT CSAIL团队开发了动态韵律预测模型ProsoBea，其论文被ICASSP2023收录为亮点成果。Amazon Alexa团队则借鉴其多维度评估框架，构建了新一代语音质量评估系统VQES，该系统在Interspeech2022获得最佳工业论文奖。这些衍生工作持续推动着语音合成技术向更自然的方向发展。

数据集最近研究