polish_presidential_debate
收藏Hugging Face2025-05-28 更新2025-05-29 收录
下载链接:
https://huggingface.co/datasets/directtt/polish_presidential_debate
下载链接
链接失效反馈官方服务:
资源简介:
波兰总统辩论自动语音识别数据集,包含13位候选人在辩论中的15个音频样本,每个音频样本都有对应的文本字幕。数据集适用于自动语音识别任务,特别是针对波兰语言在政治领域的应用。
创建时间:
2025-05-27
原始信息汇总
Polish Presidential ASR Dataset 数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 自动语音识别 (Automatic Speech Recognition)
- 语言: 波兰语 (pl)
- 标签: 政治 (politics)
- 数据集名称: Polish Presidential ASR Dataset
- 规模类别: n<1K
数据来源
- 来源: DEBATA PREZYDENCKA TVP | 12.05.2025
- 链接: https://www.youtube.com/watch?v=bvlzQvdgqLU
数据集描述
- 内容: 13位波兰总统辩论候选人的录音,每位候选人提供15个音频样本(朗读或即兴)。
- 音频格式: 16 kHz WAV格式。
- 用途: 专为自动语音识别(ASR)任务设计,特别适用于波兰语政治领域的语音处理。
文件结构
text ├── README.md ├── audio/ │ └── pl/ │ └── <NN-name>/ │ ├── <name>_0.wav │ ├── <name>_1.wav │ └── … (15 files per speaker) └── transcript/ └── pl/ └── test.tsv
- 说明: 每个发言者文件夹以两位数字前缀和发言者标识符命名(例如
01-bartoszewicz_artur)。
元数据 (test.tsv)
- TSV 表头:
path: 音频文件的相对路径sentence: 口语文本age: 发言者年龄gender: 发言者性别locale: 录音地点(例如 "studio")speech_type: 语音类型(例如 "read" 或 "spontaneous")source: 音频来源(例如 "youtube")
使用方法
-
加载数据集: python from datasets import load_dataset ds = load_dataset("directtt/polish_presidential_debate", split="test") print(ds[0])
-
流式加载: python from datasets import load_dataset ds = load_dataset("directtt/polish_presidential_debate", split="test", streaming=True) print(next(iter(ds)))
引用
bibtex @misc{polish_presidential_debate, title = {Polish Presidential Debate ASR Dataset}, author = {Dudek Marcel, Jerzykiewicz Sebastian, Rybczyński Jędrzej, Solarski Antoni}, year = {2025} }
搜集汇总
数据集介绍

构建方式
在政治语言学领域,该数据集通过系统化采集13位波兰总统候选人的语音样本构建而成。每位候选人提供15段音频样本,涵盖朗读和即兴演讲两种形式,采用16kHz WAV格式进行专业录音。数据源来自TVP电视台2025年总统辩论公开视频,通过精细的转写流程生成标准化的文本标注,并整合说话人年龄、性别等元数据形成结构化TSV文件。
特点
作为波兰语政治话语研究的专业语料库,该数据集具有鲜明的领域特异性。其核心价值在于收录政治人物真实语音样本,包含195条高质量音频-文本对,每个样本均标注详细的说话人属性及语音类型。数据采用层级目录存储,命名规范统一,支持快速检索特定候选人的全部语音记录。特别值得注意的是,该数据集同时包含朗读和即兴两种语音模式,为研究政治话语的韵律特征提供了对比素材。
使用方法
借助Hugging Face生态系统,研究者可通过datasets库高效加载该数据集。标准调用方式支持整体下载或流式读取两种模式,特别适合内存受限的研究环境。数据加载后自动转换为结构化字典格式,包含音频路径、波形数据、转写文本及元数据字段。流式读取特性允许逐样本处理大规模数据,结合PyTorch或TensorFlow框架可快速构建端到端的波兰语语音识别系统。对于政治话语分析研究,可通过speech_type字段筛选不同语音模式进行对比实验。
背景与挑战
背景概述
波兰总统辩论ASR数据集由Dudek Marcel等研究人员于2025年构建,专注于波兰政治领域的自动语音识别研究。该数据集收录了13位总统候选人在电视辩论中的15段音频样本,涵盖朗读和即兴发言两种语音类型,采样率为16 kHz。作为波兰语政治话语分析的重要资源,该数据集填补了该领域高质量标注语料的空白,为语音识别技术在政治传播、媒体分析等应用场景提供了基准数据。数据集源自主流媒体TVP的公开辩论视频,具有权威的语料来源和精细的元数据标注体系。
当前挑战
该数据集主要解决波兰政治领域语音识别的特殊挑战,包括候选人方言变体的声学特征差异、政治术语的准确转写、以及即兴发言中的非流畅语音处理。构建过程中面临电视直播环境下的音频降噪、多人对话的话者分离等技术难题,同时需平衡不同性别、年龄候选人的样本代表性。专业政治词汇的标注一致性维护,以及即兴发言与朗读语音的领域差异处理,均为数据集构建的关键挑战。
常用场景
经典使用场景
在政治语言学领域,Polish Presidential ASR Dataset为研究者提供了独特的波兰总统候选人语音素材。该数据集最经典的使用场景是训练和评估波兰语自动语音识别系统,特别是针对政治演讲这类具有特定术语和表达风格的语音内容。13位候选人的15段录音涵盖了朗读和即兴演讲两种模式,为模型训练提供了丰富的语音变异特征。
实际应用
在实际应用中,该数据集支撑的ASR技术可直接服务于政治领域的多语言实时字幕生成、会议记录自动化等场景。媒体机构可利用该技术实现政治辩论的快速转录,智库研究人员则能基于转录文本进行话语分析。数据集包含的即兴演讲样本特别适合开发应对非正式表达的语音识别系统。
衍生相关工作
该数据集已衍生出多个经典研究方向,包括基于政治人物语音的身份识别系统、波兰语口音分析模型,以及面向政治术语的领域自适应ASR框架。部分研究进一步扩展了数据应用,将其与文本分析技术结合,开发出政治立场检测和演讲风格分类等创新方法。
以上内容由遇见数据集搜集并总结生成



