threite/Bundestag-v2

Name: threite/Bundestag-v2
Creator: threite
Published: 2023-02-14 13:08:49
License: 暂无描述

Hugging Face2023-02-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/threite/Bundestag-v2

下载链接

链接失效反馈

官方服务：

资源简介：

Bundestag-v2数据集是从ParlSpeech V2数据集中生成的，包含1990年至2020年德国议会的演讲，并标注了演讲者的政党。数据集的主要任务是文本分类，语言为德语。数据字段包括演讲的文本和演讲者的政党。数据集分为训练集、验证集和测试集。创建该数据集的目的是训练一个能够按政党分类演讲的语言模型。数据集的使用可能涉及社会影响，因为政治演讲内容可能具有争议性和潜在危害性。

The Bundestag-v2 dataset is derived from the ParlSpeech V2 dataset. It contains speeches from the German Bundestag between 1990 and 2020, annotated with the political party of each speaker. The primary task of this dataset is text classification, with all texts in German. The data fields include the speech text and the political party of the speaker. The dataset is split into training, validation, and test sets. The purpose of creating this dataset is to train a language model capable of classifying speeches based on the speakers' political parties. The usage of this dataset may involve social impacts, as political speech content can be controversial and potentially harmful.

提供机构：

threite

原始信息汇总

数据集概述

数据集名称

名称: Bundestag-v2
别名: ParlSpeech V2

数据集基本信息

语言

语言: 德语
语言创建方式: 专家生成

许可

许可类型: CC0-1.0

多语言性

多语言性: 单语种

大小

数据集大小: 100K<n<1M

任务类别

任务类别: 文本分类
任务ID: 实体链接分类

数据集内容

数据集摘要

摘要: 该数据集包含1990年至2020年间德国议会的演讲，演讲者所属政党已标注。

支持的任务

任务: 文本分类

数据结构

数据字段:
- text: 德语演讲文本
- party: 演讲者所属政党
数据分割:
- 分割类型: 训练集, 验证集, 测试集

数据集创建

创建理由: 用于训练能够根据政党分类演讲的语言模型。
源数据: ParlSpeech V2

使用数据注意事项

社会影响: 由于包含政治演讲，内容可能具有争议性和潜在危害。

许可信息

许可: CCO 1.0

引用信息

引用格式:

@data{DVN/L4OAKN_2020, author = {Rauh, Christian and Schwalbach, Jan}, publisher = {Harvard Dataverse}, title = {{The ParlSpeech V2 data set: Full-text corpora of 6.3 million parliamentary speeches in the key legislative chambers of nine representative democracies}}, year = {2020}, version = {V1}, doi = {10.7910/DVN/L4OAKN}, url = {https://doi.org/10.7910/DVN/L4OAKN} }

搜集汇总

数据集介绍

构建方式

在政治话语分析领域，Bundestag-v2数据集源自ParlSpeech V2语料库，该语料库系统收录了德国联邦议院自1990年至2020年间的议会演讲记录。构建过程涉及从原始数据中提取演讲文本，并依据发言者所属政党进行标注，形成结构化数据。这一流程确保了数据来源的权威性与时序连续性，为研究德国政治语言演变提供了坚实基础。

特点

该数据集以德语单语形式呈现，规模介于十万至百万条之间，涵盖德国主要政党的演讲内容。每条数据包含演讲文本及对应的政党标签，适用于文本分类任务，特别是政党归属的实体链接分类。数据经过专家生成与标准化处理，具有较高的准确性与一致性，同时遵循CCO 1.0许可协议，支持学术与商业用途的灵活访问。

使用方法

使用者可通过HuggingFace平台加载数据集，直接应用于训练政党分类语言模型。数据已预分为训练集、验证集和测试集，便于机器学习流程的快速集成。鉴于演讲内容可能涉及争议性政治观点，建议在应用时结合伦理考量，避免模型强化潜在的社会偏见。该数据集为政治学、计算语言学等领域的研究提供了实证分析工具。

背景与挑战

背景概述

在政治学与计算社会科学交叉领域，议会演讲文本的分析为理解政党立场与政治话语演变提供了关键数据支撑。Bundestag-v2数据集由研究者Christian Rauh与Jan Schwalbach基于ParlSpeech V2语料库构建，发布于2020年，专注于德国联邦议院自1990年至2020年间的演讲记录。该数据集通过专家标注将演讲文本与发言者所属政党关联，旨在推动政党立场自动识别与政治语言建模的研究，为民主制度下的言论模式分析提供了标准化资源，显著促进了政治文本挖掘领域的实证研究进展。

当前挑战

该数据集致力于解决政治文本分类中的政党归属识别挑战，其核心难点在于捕捉不同政党在复杂政治议题中微妙且动态的语言风格差异，同时需克服演讲内容中存在的修辞多样性、议题重叠以及时间演变带来的概念漂移问题。在构建过程中，挑战主要源于原始语料的多源异构性，需对非结构化的议会记录进行清洗、归一化与政党标签对齐，并确保在长达三十年的时间跨度中保持标注一致性，同时还需处理德语政治术语的特殊性及数据中可能隐含的敏感或争议性内容。

常用场景

经典使用场景

在政治话语分析领域，Bundestag-v2数据集为研究者提供了丰富的德国联邦议院演讲文本，这些文本标注了演讲者所属政党。该数据集最经典的使用场景是训练文本分类模型，以自动识别和归类不同政治派别的演讲风格与内容特征。通过分析长达三十年的议会发言记录，学者能够深入探究德国政治光谱中的语言模式差异，为政治语言学提供实证基础。

解决学术问题

该数据集有效解决了政治科学和计算语言学中的若干核心问题，包括政党立场自动识别、政治话语演变追踪以及跨党派语言特征比较。通过提供大规模、时间跨度长的标注语料，它使得量化分析政治修辞策略成为可能，弥补了传统定性研究在规模与客观性上的局限。其意义在于为民主制度下的言论研究建立了可重复的实证框架，推动了政治文本挖掘方法论的标准化进程。

衍生相关工作

基于该数据集衍生的经典工作主要集中在政治文本计算分析领域。例如，学者们开发了基于注意力机制的神经网络模型，用于捕捉政党特有的修辞特征；另有研究结合时序分析方法，追踪德国统一后主要政党纲领性话语的演变轨迹。这些工作不仅拓展了议会语料的计算分析方法，也为比较政治学研究提供了跨国的文本分析范式参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集