five

CtO triggers dataset

收藏
arXiv2026-03-27 更新2026-03-31 收录
下载链接:
https://github.com/kalawinka/cto_analysis
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由莱布尼茨社会科学研究所与维也纳模都尔大学联合构建,聚焦德国联邦议院72年间的议会辩论记录,包含558条标注的'秩序传唤'(CtO)实例。数据集源自GermaParl语料库的XML版本,通过规则匹配和人工标注相结合的方式,识别出涉及个人侮辱、群体侮辱等五类触发原因。数据覆盖1949至2021年19个立法周期,主要应用于政治话语分析领域,为研究议会不文明行为、制度冲突及政治极化现象提供量化依据。

This dataset was co-developed by the Leibniz Institute for Social Sciences and Modul University Vienna, focusing on 72 years of parliamentary debate records from the German Bundestag and containing 558 annotated "Call to Order" (CtO) instances. Derived from the XML version of the GermaParl corpus, the dataset identified five categories of triggering causes including personal insults, group insults and others through a hybrid approach of rule-based matching and manual annotation. Covering 19 legislative terms spanning from 1949 to 2021, this dataset is primarily utilized in the field of political discourse analysis, providing quantitative evidence for research on parliamentary incivility, institutional conflict and political polarization.
提供机构:
莱布尼茨社会科学研究所; 维也纳模都尔大学
创建时间:
2026-03-27
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称:Analysing German parliamentary debates: a special case of calls to order
  • 关联研究:支持一篇被PoliticalNLP 2026(LREC 2026 Workshop)接受的投稿,该研究探讨议会话语中的不文明现象,重点关注德国议会中的秩序呼吁(CtO)。
  • 数据来源:德国联邦议院(Bundestag)的议会辩论记录。

数据集文件与结构

1. cto_corpus_speeches.json

  • 内容描述:包含德国联邦议院中涉及秩序呼吁(CtO)或其诱因的完整政治家演讲。
  • 数据列
    • date:演讲日期。
    • legislativeperiod:立法周期。
    • sessionno:会议编号。
    • url:源文件的URL。
    • agenda_type:议程类型。
    • speech_id:演讲ID。
    • speech_nr:演讲编号。
    • speaker_full_name:演讲者全名。
    • role:演讲者角色。
    • party:演讲者所属政党。
    • speaker_id:演讲者ID;与pm_info.json中的ID列对应。
    • classification:演讲主题。
    • speech:按句子分割的演讲内容。每个句子包含:
      • sen_nr:句子在演讲中的编号。
      • type:句子类型(演讲、秩序呼吁或插话)。

2. relations_cto_cause.json

  • 内容描述:包含关系数据,显示cto_corpus_speeches.json中哪个句子引发了相应的秩序呼吁(CtO)以及被要求遵守秩序的议员(PM)姓名。
  • 数据列
    • cto_id:秩序呼吁(CtO)的ID。
    • cto_speech_id:包含秩序呼吁的演讲ID;与cto_corpus_speeches.json中的speech_id对应。
    • cto_sen_nr:包含秩序呼吁的句子在演讲中的编号;与cto_corpus_speeches.json中的sen_nr对应。
    • clas:引发秩序呼吁的诱因分类。
    • cause_id:引发秩序呼吁的诱因ID。
    • cause_speech_id:包含相应诱因的演讲ID;与cto_corpus_speeches.json中的speech_id对应。
    • cause_sen_nr:包含诱因的句子在演讲中的编号;与cto_corpus_speeches.json中的sen_nr对应。
    • pm_called_to_order:被要求遵守秩序的议员。每个条目包含:
      • name:被要求遵守秩序的议员姓名。
      • speaker_id:被要求遵守秩序的议员ID;与pm_info.json中的ID列对应。
      • name_disambiguated:True或False,表示该议员姓名是否已消歧。

3. pm_info.json

  • 内容描述:包含议会成员列表的一个子集;仅限于cto_corpus_speeches.json中出现的议员。数据检索自Bundestag Opendata
  • 数据列:参见Bundestag Opendata的描述。

4. find_cto.ipynb

  • 内容描述:用于检测演讲中秩序呼吁(CtO)的基于规则的脚本。
搜集汇总
数据集介绍
main_image_url
构建方式
在议会话语分析领域,CtO triggers数据集的构建采用了基于规则的方法与人工标注相结合的策略。该数据集源自德国联邦议院长达72年的辩论记录,通过对GermaParl语料库的XML版本进行处理,研究者首先应用文本匹配规则识别出包含“秩序呼吁”的句子。具体而言,规则设计基于对议会主席发言的细致审查,旨在捕捉如“ordnungsruf”与“erteile(n)”搭配等特定表达模式。随后,利用命名实体识别模型提取被点名议员的信息,并对无法自动消歧的实例进行手动标注,最终形成包含558个标注实例的结构化数据集。
特点
该数据集的核心特点在于其首次系统化地对议会秩序呼吁的触发因素进行了分类,构建了一个包含五类触发原因的分类体系,如针对个人的侮辱、一般性侮辱及非言语行为等。数据集覆盖了从1949年至2021年的19个立法周期,揭示了秩序呼吁在时间维度上的分布不均与高变异性。尤为突出的是,数据反映了议会互动中的性别与党派差异,例如男性议员与反对党成员更频繁地受到秩序呼吁,而政府事务与主席行动相关的演讲则成为触发秩序呼吁的主要语境。
使用方法
在政治语言学与计算社会科学研究中,该数据集为分析议会不文明行为提供了实证基础。研究者可将其用于探索政治极化、制度冲突及话语规范等议题,例如通过统计检验考察秩序呼吁与议员性别、党派归属或辩论主题之间的关联。数据集支持自动分类模型的训练与评估,如应用于议会话题分类或情绪检测任务。此外,其结构化格式便于集成至更广泛的议会语料分析流程中,助力于政府透明度与问责制的研究。
背景与挑战
背景概述
在政治学与计算语言学的交叉领域,议会辩论分析长期关注于话语策略、情感倾向与制度动态。由Nina Smirnova、Daniel Dan与Philipp Mayr等学者于2026年提出的CtO triggers数据集,标志着对德国联邦议院中秩序传唤现象的首个系统性探索。该数据集基于跨越72年的GermaParl语料库,通过规则化方法识别并标注了秩序传唤实例,旨在揭示议会不文明行为的触发因素及其与政治极化、性别和党派归属的关联。这一创新性工作不仅填补了议会研究中秩序传唤定量分析的空白,也为历史自然语言处理与制度行为分析提供了新的数据基础,推动了政治话语透明化与问责机制的研究进程。
当前挑战
CtO triggers数据集所应对的核心领域挑战在于量化分析议会辩论中的不文明行为,特别是秩序传唤这一制度性指标,以揭示政治极化与制度冲突的微观机制。在数据构建过程中,研究者面临多重挑战:其一,秩序传唤的识别依赖于严格规制的表述模式,但规则化方法可能导致误报或遗漏非典型表述实例;其二,被传唤个体的消歧依赖命名实体识别模型,部分案例因信息缺失无法准确关联,影响了统计分析的完整性;其三,缺乏现成的秩序传唤分类体系,需从零构建标注框架,且话题分类模型在某些类别上性能有限,可能引入标注偏差。这些挑战凸显了在历史政治文本中平衡自动化效率与标注准确性的复杂权衡。
常用场景
经典使用场景
在议会话语分析领域,CtO triggers dataset为研究政治辩论中的不文明行为提供了关键数据支撑。该数据集通过标注德国联邦议院72年间的秩序呼吁实例,使研究者能够系统探究议会辩论中违规行为的触发因素与模式。其经典应用场景在于量化分析议会发言中的侮辱性言论、非言语干扰等不文明现象,从而揭示政治极化与制度冲突的动态演变。
实际应用
在实际应用中,该数据集为政治机构透明度建设与议会程序优化提供了参考依据。通过识别高频触发秩序呼吁的辩论主题(如政府事务与总统行动),它有助于议会管理机构针对性加强议程监督与礼仪培训。同时,数据揭示的反对党成员与男性议员更易受到秩序呼吁的现象,可为议会平等性与程序公正性评估提供实证支持。
衍生相关工作
基于该数据集衍生的经典研究包括对议会中断言行为的性别差异分析、政治修辞中事实性表达的系统考察,以及生成式模型在议会情感检测任务中的性能比较。这些工作扩展了历史自然语言处理在政治学中的应用边界,特别是在跨党派互动模式识别、议程设置框架构建等方面形成了方法论创新,推动了议会语料库分析从传统情感分析向多维度话语标记研究的范式转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作