SpeakGer

Name: SpeakGer
Creator: 多特蒙德工业大学统计系
Published: 2024-10-23 22:00:48
License: 暂无描述

arXiv2024-10-23 更新2024-10-25 收录

下载链接：

http://arxiv.org/abs/2410.17886v1

下载链接

链接失效反馈

官方服务：

资源简介：

SpeakGer数据集是由多特蒙德工业大学统计系创建的一个丰富的元数据语音语料库，涵盖了德国16个联邦州议会和德国联邦议院从1947年到2023年的辩论记录。该数据集包含10,806,105条演讲，每条演讲都附有丰富的元数据，如演讲者的党派、年龄、选区及其党派的政治立场，以及听众对演讲的反应等信息。数据集的创建过程包括从各议会网站收集数据，并使用OCR技术提取和校正文本。SpeakGer数据集旨在通过提供详细的元数据，支持政治科学领域的精细化研究，特别是在自然语言处理和政治文本分析方面。

SpeakGer Dataset is a metadata-rich speech corpus developed by the Department of Statistics, TU Dortmund University. It covers debate transcripts from the 16 state parliaments of Germany and the German Bundestag spanning from 1947 to 2023. The dataset contains 10,806,105 speeches, each paired with comprehensive metadata including the speaker's political party, age, constituency, the political stance of their affiliated party, and audience reactions to the speech, among other relevant details. The dataset was constructed by collecting raw data from official parliamentary websites and employing OCR technology to extract and correct the textual content. The SpeakGer Dataset aims to support fine-grained research in political science, especially within the domains of natural language processing and political text analysis, by providing detailed and comprehensive metadata.

提供机构：

多特蒙德工业大学统计系

创建时间：

2024-10-23

搜集汇总

数据集介绍

构建方式

SpeakGer数据集的构建基于德国16个联邦州议会和德国联邦议院自1947年至2023年的辩论记录，共计10,806,105条演讲。数据主要从各议会官方网站收集，部分缺失的文档则通过Parlamentsspiegel网站和当地博物馆的数字化文档补充。为确保文本的准确性，使用了Google的Tesseract OCR技术进行文本提取和拼写校正，同时结合Symspell的德语词典进行错误修正。此外，通过Wikipedia页面抓取了每位议员的元数据，包括姓名、出生年份、党派、选区及其党派的政治倾向，以实现更精细的政治分析。

使用方法

SpeakGer数据集适用于多种自然语言处理任务，如主题建模、情感分析和政治立场分析。研究者可以利用数据集中的元数据，按党派、年龄、选区等条件筛选演讲，进行针对性的分析。例如，可以通过RollingLDA模型分析不同党派随时间变化的话题分布，或使用Lex2Sent工具进行无监督的情感分析，评估各党派在特定话题上的情感倾向。此外，数据集还可用于比较不同州议会之间的演讲差异，验证区域性政治特征。

背景与挑战

背景概述

SpeakGer数据集由德国多特蒙德大学统计系的Kai-Robin Lange和Carsten Jentsch创建，旨在为政治科学领域的自然语言处理研究提供丰富的元数据支持。该数据集包含了自1947年至2023年德国16个联邦州议会及德国联邦议院的辩论记录，共计10,806,105条演讲。SpeakGer不仅涵盖了演讲文本，还提供了详尽的元数据，包括演讲者的党派、年龄、选区及其党派的政党立场等信息。这些元数据使得研究者能够进行更为精细的研究，如分析不同党派、年龄组和地区的演讲主题、观点和模式。SpeakGer的发布填补了现有数据集在德国州级政治分析中的空白，为政治科学研究提供了新的视角和工具。

当前挑战

SpeakGer数据集在构建过程中面临多项挑战。首先，数据来源多样，包括各议会官方网站、Parlamentsspiegel网站及地方博物馆，部分早期立法时期的文档因未数字化而缺失。其次，文本提取和拼写校正过程中，由于早期文档扫描质量不佳，依赖OCR技术进行文本提取时易产生误差，需通过词典和Levenshtein距离进行校正。此外，演讲分割依赖于元数据和正则表达式，对于质量较差的扫描文档，分割效果可能不理想。最后，数据集中未包含非议会成员的演讲，如嘉宾演讲，这限制了数据集的全面性。未来，随着OCR技术的进步和德国州议会文档的数字化项目完成，这些挑战有望得到缓解。

常用场景

经典使用场景

SpeakGer数据集的经典使用场景主要集中在政治科学领域的自然语言处理应用。通过分析德国各州和联邦议会的辩论文本，研究人员可以深入探讨不同政党、议员年龄、选区及其政治立场在议会辩论中的表现。例如，利用该数据集，可以进行时间序列上的主题建模，分析各政党在不同时间段内的议题关注点变化，或者进行情感分析，评估特定政党在处理如COVID-19疫情等重大事件时的言论倾向。

解决学术问题

SpeakGer数据集解决了政治科学研究中常见的数据匮乏问题，特别是缺乏详细的元数据信息。传统的政治文本分析往往依赖于政党宣言或联邦层面的议会演讲，而忽略了州级及以下的政治动态。该数据集通过提供丰富的元数据，如议员的党派、年龄、选区及其政治立场，使得研究人员能够进行更为精细的政治分析，从而揭示不同政党在地方层面的政策倾向和立场变化。

实际应用

在实际应用中，SpeakGer数据集为政策制定者和政治分析师提供了宝贵的资源。通过分析议会辩论，可以实时监控各政党的政策动向，预测可能的政治变革，并为政策制定提供数据支持。此外，该数据集还可用于公众教育，帮助公民更好地理解政治决策过程，提升政治透明度。

数据集最近研究