openfun/taiwan-legislator-transcript

Name: openfun/taiwan-legislator-transcript
Creator: openfun
Published: 2024-07-22 21:34:07
License: 暂无描述

Hugging Face2024-07-22 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/openfun/taiwan-legislator-transcript

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含台湾立法院的公报逐字稿，涵盖两个配置文件（11-1和10-8），每个配置文件包含相同的特征，如ivod_id、立法者姓名、会议名称、会议主题、会议日期、发言开始时间、发言结束时间、公报议程内容和逐字稿。

提供机构：

openfun

原始信息汇总

数据集概述

数据集名称

台湾立委公报逐字稿

数据集配置

配置名称: 11-1
- 数据文件: csv/11-1.csv
- 特征:
  - ivod_id: string
  - legislator_name: string
  - meet_name: string
  - meet_subjects: string
  - meet_date: string
  - speech_start_time: string
  - speech_end_time: string
  - gazette_agenda_content: string
  - transcript: string
配置名称: 10-8
- 数据文件: csv/10-8.csv
- 特征:
  - ivod_id: string
  - legislator_name: string
  - meet_name: string
  - meet_subjects: string
  - meet_date: string
  - speech_start_time: string
  - speech_end_time: string
  - gazette_agenda_content: string
  - transcript: string

搜集汇总

数据集介绍

构建方式

该数据集聚焦于台湾地区立法机构的会议记录，通过系统性地收集并整理立法院公报中的逐字稿内容构建而成。数据采集覆盖了第10届第8会期与第11届第1会期两个关键会期，以CSV格式存储，每个会期对应一个独立的配置项。每条记录包含ivod_id、立法委员姓名、会议名称、会议议题、会议日期、发言起止时间、公报议程内容以及完整的逐字稿文本，确保了数据结构的标准化与可复现性。

特点

数据集呈现出鲜明的时序性与结构化特征，按会期划分的配置设计便于研究者针对特定政治周期进行分析。每个数据条目均融合了元数据（如发言时间、会议主题）与核心的逐字稿内容，为自然语言处理任务提供了丰富的上下文信息。此外，立法委员姓名字段的纳入，使得对个体发言风格、议题偏好及跨会期行为追踪成为可能，赋予了数据集在政治话语分析领域的重要价值。

使用方法

用户可通过HuggingFace Datasets库直接加载该数据集，利用config参数指定目标会期（如'11-1'或'10-8'）以获取对应子集。加载后的数据以表格形式呈现，支持通过字段名（如'transcript'、'legislator_name'）进行切片与过滤。适用于文本分类、命名实体识别、序列标注等任务，也可结合时间戳进行时序分析，或利用会议主题字段开展议题建模研究。

背景与挑战

背景概述

在自然语言处理与政治学交叉研究领域，议会语料库的构建为解析民主政体中的话语互动提供了关键数据支撑。openfun/taiwan-legislator-transcript数据集由开放社群于近期创建，聚焦台湾立法院的公报逐字稿，涵盖第10届第8会期与第11届第1会期两阶段议事记录。该数据集的核心研究问题在于，如何通过结构化的立法者发言文本（包含议员姓名、会议主题、议程内容及时间戳），揭示立法过程中的议题聚焦与修辞策略。作为首个系统性公开的中文议会语料库，它填补了东亚地区立法话语数据的空白，为计算政治学、话语分析及舆情监测提供了基础资源，尤其对理解台湾地区立法机构运作机制具有显著学术价值。

当前挑战

该数据集面临的挑战首先体现于领域问题的复杂性：议会语料的多义性与语境依赖性使得自动议题分类与立场检测极具难度，例如同一术语在不同委员会或法案辩论中可能承载迥异的政治意涵。构建过程中，转录文本的噪声处理构成核心难点——原始公报可能包含口误、重复、打断及非文字符号（如掌声、抗辩），需精细清洗以保留语义完整性。此外，跨会期数据的一致性维护亦成挑战，不同届次的议事规则与记录格式差异可能导致字段对齐偏差，影响时间序列分析的可靠性。这些障碍共同制约了数据集在细粒度政治话语建模中的应用潜力。

常用场景

经典使用场景

该数据集收录了台湾立法院第10届第8会期及第11届第1会期的委员发言逐字稿，涵盖ivod_id、委员姓名、会议名称、会议主题、会议日期、发言起止时间、公报议程内容及完整逐字稿等结构化字段。在自然语言处理与政治学交叉研究中，它常用于构建中文政治语料库，支撑立法委员发言风格分析、议题注意力分配研究及议会话语计算，尤其适用于探索台湾地区立法机构中政党协商、法案审议与质询环节的语言模式。

衍生相关工作

该数据集衍生出多项开创性工作，包括基于注意力机制的立法委员立场检测模型、融合时间序列的议会议程预测方法，以及跨党派话语对齐的对比学习框架。学界已利用其构建台湾立法机构的知识图谱，关联发言者、法案与投票行为。部分研究进一步结合情感分析，刻画重大社会事件期间议会话语的情绪波动，为政治传播理论提供了计算验证的基石。

数据集最近研究