PolInterviews

Name: PolInterviews
Creator: 德国社会科学莱布尼茨研究所, 开姆尼茨大学, 曼海姆大学
Published: 2025-01-08 21:09:45
License: 暂无描述

arXiv2025-01-08 更新2025-01-10 收录

下载链接：

https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/03TNGR

下载链接

链接失效反馈

官方服务：

资源简介：

PolInterviews数据集是由德国社会科学莱布尼茨研究所、开姆尼茨大学和曼海姆大学联合创建的一个新颖数据集，包含99个德国高级政治家的公开广播采访，涵盖五种主要采访形式，共计28,146个句子。数据来源于YouTube，经过Whisper模型转录和ECAPA-TDNN模型进行说话者识别，最终通过人工验证确保质量。该数据集旨在研究政治沟通中的议程设置、采访者动态以及政治家的自我展示等问题，适用于定量和定性分析，为政治科学和媒体研究提供了宝贵资源。

The PolInterviews dataset is a novel dataset jointly created by the Leibniz Institute for the Social Sciences in Germany, Chemnitz University, and the University of Mannheim. It contains 99 public broadcast interviews with senior German politicians, covering five main interview formats and totaling 28,146 sentences. The data was sourced from YouTube, transcribed using the Whisper model, with speaker identification performed via the ECAPA-TDNN model, and finally verified manually to ensure data quality. This dataset aims to research topics including agenda-setting in political communication, interviewer dynamics, and politicians' self-presentation, and supports both quantitative and qualitative analysis, providing a valuable resource for political science and media research.

提供机构：

德国社会科学莱布尼茨研究所, 开姆尼茨大学, 曼海姆大学

创建时间：

2025-01-08

搜集汇总

数据集介绍

构建方式

PolInterviews数据集的构建过程始于对YouTube平台上德国高级政治人物公开广播访谈的系统性识别。研究团队首先确定了2020年至2024年间最相关的公共广播格式，并收集了这些格式下的访谈视频。访谈对象包括政党领袖、秘书长以及联邦和州级的总理和部长。通过Whisper转录模型对音频内容进行转录，并利用ECAPA-TDNN模型进行说话人识别，最终通过人工验证确保转录质量。数据集以表格形式存储，包含时间戳和说话人ID，确保了数据的结构化和可追溯性。

使用方法

PolInterviews数据集适用于多种研究场景，包括政治传播、议程设置、访谈者动态以及政治人物的自我展示等。研究者可以利用该数据集进行定量和定性分析，如情感分析、主题建模和语言风格比较。数据集的结构化格式使得研究者能够轻松地进行时间序列分析和对话模式研究。此外，数据集还支持与其他政治文本数据库的链接，如LegislatoR和Parlspeech，进一步扩展了其应用范围。

背景与挑战

背景概述

PolInterviews数据集由德国社会科学家Lukas Birkenmaier及其团队于2025年创建，旨在提供德国高级政治人物在公共广播访谈中的语言数据。该数据集包含99个访谈，涉及33位不同政治人物，总计28,146个句子。这些数据来源于YouTube，经过转录和说话者识别处理，并以整洁的开放格式存储。作为首个此类数据集，PolInterviews为研究德国政治背景下的议程设置、采访者动态及政治人物自我展示等政治沟通问题提供了宝贵资源。该数据集不仅支持定量和定性分析，还为政治科学和自然语言处理领域的研究提供了新的视角。

当前挑战

PolInterviews数据集在构建过程中面临多重挑战。首先，数据收集依赖于YouTube上的公开访谈，这可能导致数据的不完整性和选择性偏差。其次，转录和说话者识别过程需要高精度的自动化工具和人工验证，以确保数据的准确性和一致性。此外，尽管数据集涵盖了多个访谈格式和政治人物，但其时间范围仅限于2020年至2024年，可能无法全面反映德国政治沟通的长期趋势。最后，数据集的开放性和可访问性虽然为研究提供了便利，但也带来了数据隐私和伦理问题，特别是在处理公共人物的言论时。这些挑战需要在未来的研究中加以克服，以进一步提升数据集的质量和应用价值。

常用场景

经典使用场景

PolInterviews数据集在政治传播研究领域具有广泛的应用价值。该数据集包含了99个德国高层政治家的公开广播访谈，涵盖了28,146个句子的转录文本。这些访谈内容为研究者提供了丰富的语料，可用于分析政治家的自我呈现、议程设置以及访谈者与受访者之间的互动动态。通过这一数据集，研究者能够深入探讨德国政治语境下的语言策略和沟通模式。

解决学术问题

PolInterviews数据集解决了政治传播研究中数据稀缺的问题，尤其是在德语语境下高质量政治访谈转录文本的匮乏。该数据集为研究者提供了系统化的语料，支持定量和定性分析，如情感分析、主题建模和语言风格比较等。通过这一数据集，研究者能够更准确地分析政治家的语言策略、议程设置以及访谈中的动态互动，从而深化对政治传播机制的理解。

实际应用

PolInterviews数据集在实际应用中具有重要的价值。例如，媒体研究机构可以利用该数据集分析政治访谈中的语言策略和沟通模式，从而优化新闻报道的内容和形式。此外，政治顾问和竞选团队可以通过分析数据集中的访谈内容，了解公众对特定政治议题的反应，进而制定更有效的沟通策略。该数据集还为自然语言处理技术的开发提供了高质量的语料，推动了相关技术的进步。

数据集最近研究