experimental-tts-tags-v1

Hugging Face2025-09-01 更新2025-09-02 收录

下载链接：

https://huggingface.co/datasets/kubicra/experimental-tts-tags-v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了丰富的语音特征信息，如文本、标准化文本、音频长度、日期、发言人性别、出生年份、党派信息、政治倾向、党派地位等。此外，还包括音频的起始和结束时间戳、ID、句子ID、文本的起始和结束位置、单词、议程、正文、语言、会议、会话、届数、演讲者ID、议员信息、部长信息、演讲者姓名、党派名称、角色、子语料库、术语、文本ID、标题等。数据集还包含了语音质量相关的指标，如平均音高、音高标准差、信噪比、c50、说话速率、音素、stoi、si-sdr、pesq、噪声、混响、语调单调性、sdr噪声、语音质量pesq等。数据集分为训练集，其中包含9个示例，大小为13181字节。

创建时间：

2025-08-29

原始信息汇总

数据集概述

基本信息

数据集名称：experimental-tts-tags-v1
存储位置：https://huggingface.co/datasets/kubicra/experimental-tts-tags-v1
下载大小：28,010字节
数据集大小：13,181字节
训练集样本数量：9条

数据结构

特征字段

文本相关：text（原始文本）、text_normalised（标准化文本）、words（词语）、phonemes（音素）
音频相关：audio_length（音频长度）、audio_start（音频开始时间）、audio_end（音频结束时间）、audio_source（音频来源）
时间戳：text_start（文本开始位置）、text_end（文本结束位置）
身份标识：id（标识符）、sentence_id（句子标识）、Speaker_ID（说话人ID）、Text_ID（文本ID）、ID（ID）
说话人信息：Speaker_name（说话人姓名）、Speaker_gender（说话人性别）、Speaker_birth（说话人出生年份）、Speaker_party（说话人党派）、Speaker_party_name（说话人党派名称）、Speaker_role（说话人角色）、Speaker_MP（说话人是否议员）、Speaker_minister（说话人是否部长）
会议信息：Meeting（会议）、Session（会话）、Sitting（坐席）、Term（任期）、Agenda（议程）、Title（标题）、Body（正文）、Subcorpus（子语料库）
日期信息：Date（日期）
党派信息：Party_orientation（党派倾向）、Party_status（党派状态）
语言信息：Lang（语言）
音频质量指标：snr（信噪比）、c50（清晰度指数）、stoi（语音可懂度指数）、si-sdr（尺度不变信号失真比）、pesq（语音质量感知评估）
语音特征：utterance_pitch_mean（语句音高均值）、utterance_pitch_std（语句音高标准差）、speaking_rate（语速）、pitch（音高）、speech_monotony（语音单调性）
环境特征：noise（噪声）、reverberation（混响）
质量标签：sdr_noise（信噪比标签）、pesq_speech_quality（语音质量标签）

数据配置

配置名称：default
数据文件：train分割，路径为data/train-*

搜集汇总

数据集介绍

构建方式

在语音合成技术领域，experimental-tts-tags-v1数据集通过系统化采集和处理议会会议的多模态语料构建而成。其数据源自真实会议录音，结合详细的元数据标注，包括文本转录、语音时间戳、说话人身份及声学特征参数。构建过程中采用了自动化工具与人工校验相结合的方式，确保语音片段与文本对齐的精确性，并提取了包括基频、信噪比、语音清晰度在内的多维声学指标。

特点

该数据集的核心特点在于其丰富的多维度标注体系，不仅涵盖原始文本和标准化文本，还集成了声学特征、说话人背景信息和会议上下文元数据。声学层面包含基频统计量、语音质量和可懂度指标；说话人层面涉及性别、政党属性及职务信息；场景层面则提供了会议议程、场次等语境信息。这种多层次标注结构为研究语音合成中的风格建模和个性化表达提供了坚实基础。

使用方法

研究人员可利用该数据集进行文本到语音合成系统的训练与评估，特别适用于跨说话人风格迁移和个性化语音合成任务。使用时需加载包含语音片段及其对应标注的样本，通过声学特征和元数据构建条件生成模型。该数据集支持对语音质量、自然度和说话人相似度的客观度量，其丰富的语境信息也有助于开发具有场景适应性的语音合成系统。

背景与挑战

背景概述

experimental-tts-tags-v1数据集聚焦于语音合成领域，由研究机构在近年开发，旨在推动多维度语音特征与文本对齐的深入研究。该数据集整合了丰富的声学参数与政治语境元数据，涵盖说话人身份、政党背景及语音质量指标，为分析语音表现与说话人属性之间的复杂关联提供了重要数据基础。其设计反映了计算语音学与政治话语分析的交叉研究趋势，对提升合成语音的自然度与表现力具有显著意义。

当前挑战

该数据集核心挑战在于解决多模态语音合成中韵律特征与文本内容的高精度对齐问题，尤其在政治演讲这类富有情感与强调变化的语境中。构建过程中需克服声学参数提取的一致性难题，包括噪声环境下的语音清晰度保障、不同说话人音高模式的归一化处理，以及跨时段录音设备差异带来的数据异质性。此外，元数据标注涉及大量人工校验与领域知识，确保说话人属性与语音特征的准确关联亦是关键难点。

常用场景

经典使用场景

在语音合成技术研究中，experimental-tts-tags-v1数据集常被用于训练和评估多维度语音特征控制模型。该数据集通过整合政治演讲场景中的文本、声学参数及说话人元数据，为研究者提供了丰富的韵律控制和音色建模实验基础。其标注的基频均值、语速、音素序列等特征，使得开发具有细粒度表现力的文本到语音系统成为可能。

实际应用

在实际应用层面，该数据集支撑了智能语音助手的情感化交互系统开发。基于其丰富的说话人属性（性别、政党、职务）和声学特征标注，企业可训练出更具表现力的语音合成模型，应用于新闻播报、有声读物生成等场景。其标注的环境声学参数更为鲁棒语音系统的降噪和增强算法提供了训练基准。

衍生相关工作

该数据集衍生了多个语音合成领域的创新研究，包括基于政党属性的语音风格迁移模型、结合声学参数的条件生成对抗网络。部分研究利用其细粒度的韵律标注开发了动态韵律控制系统，另有工作基于说话人元数据探索了跨角色语音克隆技术。这些工作显著推进了个性化语音合成技术的发展进程。

以上内容由遇见数据集搜集并总结生成