ParlaCZ-tts-tags
收藏Hugging Face2025-09-10 更新2025-09-11 收录
下载链接:
https://huggingface.co/datasets/kubicra/ParlaCZ-tts-tags
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含文本和音频相关特征的政治演讲数据集,其中包括发言人的个人信息、演讲内容的相关信息以及音频质量的相关指标。数据集分为训练集,包含了若干示例,每个示例包含了多种特征,如文本内容、音频长度、发言人性别、政党信息等。此外,数据集还提供了音频文件和相应的文本文件的路径。
创建时间:
2025-09-02
原始信息汇总
ParlaCZ-tts-tags 数据集概述
数据集基本信息
- 名称:ParlaCZ-tts-tags
- 训练集样本数量:99
- 训练集大小:198735字节
- 下载大小:65944字节
- 数据集总大小:198735字节
数据特征
文本相关特征
- text:原始文本
- text_normalised:标准化文本
- words:词汇
- phonemes:音素
音频相关特征
- audio_length:音频长度
- audio_start:音频开始时间
- audio_end:音频结束时间
- audio_source:音频来源
- audio_relat_path:音频相对路径
- speech_duration:语音持续时间
- speaking_rate:语速
音频质量指标
- snr:信噪比
- c50:清晰度指标
- stoi:语音可懂度指标
- si-sdr:信号与干扰加失真比
- pesq:语音质量感知评估
会议相关特征
- Date:日期
- Agenda:议程
- Body:机构
- Meeting:会议
- Session:会期
- Sitting:坐席
- Term:任期
- Title:标题
- Subcorpus:子语料库
发言相关特征
- ID:标识符
- Text_ID:文本标识符
- Lang:语言
- sentence_id:句子标识符
- text_start:文本开始位置
- text_end:文本结束位置
发言人特征
- Speaker_ID:发言人标识符
- Speaker_name:发言人姓名
- Speaker_gender:发言人性别
- Speaker_birth:发言人出生年份
- Speaker_MP:议员身份
- Speaker_minister:部长身份
- Speaker_role:发言人角色
- Speaker_party:发言人政党
- Speaker_party_name:政党名称
- Party_orientation:政党倾向
- Party_status:政党状态
数据配置
- 默认配置:default
- 数据文件路径:data/train-*
搜集汇总
数据集介绍

构建方式
在语音合成技术蓬勃发展的背景下,ParlaCZ-tts-tags数据集源自捷克议会会议记录的系统性采集与处理。该数据集通过提取会议音频及其对应文本转录,结合详细的元数据标注构建而成,涵盖了说话人身份、政党背景、会议议程等多维度信息,并纳入了音频信号质量指标与语音学特征,为研究提供了丰富的数据基础。
特点
该数据集显著特点在于其多维度的结构化特征,不仅包含原始文本与标准化文本,还整合了音频时序信息、说话人社会学属性及政党政治取向等元数据。此外,数据集还引入了语音质量评估指标如信噪比、语音清晰度及语音持续时间等声学参数,为语音合成与语音分析研究提供了全面而立体的数据支撑。
使用方法
研究人员可借助该数据集开展语音合成模型的训练与评估,尤其适用于多说话人、跨政治语境下的语音生成任务。通过加载标准化文本与对应音频路径,可构建端到端的语音合成流水线;利用说话人属性与音频特征字段,还可进行语音质量分析、说话人自适应合成及政治语音风格建模等细分研究。
背景与挑战
背景概述
ParlaCZ-tts-tags数据集由捷克技术大学等研究机构于2023年推出,专注于政治演讲领域的多模态语音合成研究。该数据集基于捷克议会会议的真实录音构建,整合了音频信号与丰富的元数据标注,包括说话人身份、政党属性、语音质量指标及音素转写等信息。其核心价值在于为跨党派、跨性别的语音合成模型提供高质量训练素材,推动个性化语音生成技术在政治传播与数字人文领域的发展。
当前挑战
该数据集首要解决政治演讲场景中语音合成模型对多风格声学特征建模的挑战,包括不同政党倾向的语调差异、跨年龄段的发音特性以及即兴演讲的韵律多样性。构建过程中面临议会录音环境噪声抑制、多说话人身份验证对齐、跨模态数据时间戳同步等技术难点,同时需处理敏感政治人物数据的伦理合规性问题。
常用场景
经典使用场景
在语音合成技术领域,ParlaCZ-tts-tags数据集为研究议会语音的韵律特征和声学特性提供了重要资源。该数据集通过标注议会发言的文本与音频对齐信息,支持文本到语音合成系统的训练与评估,尤其在政治话语的合成方面展现出独特价值。
实际应用
议会语音合成系统可应用于政治教育、无障碍服务和多媒体新闻制作等领域。通过合成不同党派发言人的语音,能够帮助公众更直观地理解政治议题,同时为视障人士提供政治内容的多模态访问方式,增强政治传播的包容性和可及性。
衍生相关工作
基于该数据集的研究催生了多项政治语音合成领域的创新工作,包括跨党派语音转换模型、多语言议会语音合成系统以及基于声学参数的政治话语分析工具。这些工作不仅拓展了语音技术的应用边界,还为政治传播学提供了新的量化研究手段。
以上内容由遇见数据集搜集并总结生成



