the-swedish-parliament-corpus
收藏github2024-05-20 更新2024-05-31 收录
下载链接:
https://github.com/swerik-project/the-swedish-parliament-corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个部分,包括议会记录、议员名单和相关元数据等,涵盖了从1867年至今的瑞典议会资料,以Parla-clarin格式存储。
This dataset comprises multiple sections, including parliamentary records, lists of members of parliament, and related metadata, covering Swedish parliamentary materials from 1867 to the present, stored in Parla-clarin format.
创建时间:
2024-03-05
原始信息汇总
数据集概述
数据集名称
- 名称: Swedish parliamentary proceedings
- 版本: v2024.06.19
数据集组成
- Parliamentary records (riksdagens protokoll): 包含1867年至今的议会记录,格式为Parla-clarin。
- Persons: 包含议会成员、部长和政府的全面列表及关联元数据(任期、党派信息等)。
- Dumps: 包含合并/过滤/整理的(元)数据文件。
- 即将发布: 包含提交给议会的动议的注释目录及链接元数据。
- 即将发布: 包含提交给政府的质询问题和议会内质询辩论的注释目录。
版本兼容性
| Dated Release | Repository Versions |
|---|---|
| v2024.06.19 | pyriksdagen: v1.2.0<br>riksdagen-persons: v1.1.0<br>riksdagen-records: v1.1.0 |
| v2024.04.26 | pyriksdagen: v1.2.0<br>riksdagen-persons: v1.0.0<br>riksdagen-records: v1.0.0 |
数据集使用
- 获取最新版本: 可通过GitHub发布页面下载。
- 数据结构: 年度议会记录文件按议会年份组织在子目录中,包含议会成员、部长和政府的结构化元数据。
数据集质量评估
- 演讲者映射准确性: 通过算法在每个版本中识别议会记录中的演讲者数量。
- 议员数量准确性: 检查议员数量与应坐议员数量的对比。
- 段落分类准确性: 截至v1.0.0,段落分类准确率为0.9499。
- OCR准确性: 截至v1.0.0,字符错误率为0.0311,单词错误率为0.0869。
数据集统计
| 统计项 | v2024.06.19 | v2024.04.26 | v0.14.0 |
|---|---|---|---|
| Corpus size (GB) | 11.17 | 11.06 | 5.48 |
| 议会记录数量 | 17935 | 17800 | 17642 |
| 议会记录总页数 | 1067858 | 1056361 | 1045458 |
| 议会记录总演讲数 | 1034498 | 1022014 | 1014214 |
| 议会记录总字数 | 450383213 | 446349968 | 442634322 |
| 动议数量 | 0 | 0 | 0 |
| 动议总页数 | 0 | 0 | 0 |
| 动议总字数 | 0 | 0 | 0 |
| 议员角色人数 | 5975 | 5975 | 5975 |
| 部长角色人数 | 546 | 546 | 546 |
数据集设计
- 版本控制: 使用语义版本控制,每次主要和次要发布都会运行单元测试和统计样本评估。
- 数据稳定性: 保持
corpus/文件夹稳定,避免破坏下游脚本的变化。 - 数据格式: 数据以TEI XML文件交付,元数据以CSV文件交付。
参与和资助
- 参与: 欢迎参与数据集的校对和质量控制。
- 资助: 项目由Vetenskapsrådet和Riksbankens Jubileumsfond资助。
搜集汇总
数据集介绍

构建方式
该数据集的构建方式体现了对瑞典议会记录的系统性整理与归档。数据集由多个部分组成,包括自1867年至今的议会记录(以Parla-Clarin格式存储)、议会成员及政府官员的详细信息(包含任期、党派等元数据),以及其他经过处理和整合的元数据文件。数据集采用语义版本控制,确保每次更新后的兼容性,并通过一系列单元测试和统计抽样评估来保证数据的完整性和质量。此外,数据集的编辑历史通过Git仓库进行追踪,确保了数据的可追溯性。
特点
该数据集的主要特点在于其时间跨度长、内容丰富且结构化。数据集涵盖了从1867年至今的议会记录,采用TEI XML格式存储,便于文本分析和处理。元数据以CSV文件形式提供,遵循数据库规范化结构,便于数据管理和查询。此外,数据集的版本控制和持续更新机制确保了数据的时效性和可靠性,适合用于历史研究、政治分析以及自然语言处理等领域的研究。
使用方法
用户可以通过GitHub的发布页面下载最新版本的压缩包,解压后即可使用。数据集提供了Python和R的工具包(Pyriksdagen和rcr),帮助用户更方便地处理和分析数据。Pyriksdagen模块可通过PyPi安装,并提供了Google Colab笔记本示例,展示了如何从数据集中提取和分析议会发言。R用户则可以通过rcr包进行类似的操作,设置数据集路径后,使用extract_speeches_from_records()函数提取发言内容。
背景与挑战
背景概述
瑞典议会语料库(The Swedish Parliament Corpus)是由Westac项目(2020-2024)和Swerik项目(2023-2025)共同开发的数据集,涵盖了自1867年至今的瑞典议会记录。该数据集的核心研究问题在于通过系统化的议会记录和元数据,深入分析政治话语、议会动态及政策演变。数据集包括议会记录、议员和政府成员的详细信息、以及相关的元数据,采用Parla-Clarin格式进行标准化处理。该数据集的发布不仅为政治学、历史学和社会学等领域的研究提供了宝贵的资源,还为跨学科研究提供了丰富的语料支持。
当前挑战
瑞典议会语料库在构建过程中面临多项挑战。首先,数据的时间跨度长达一个半世纪,涵盖了从纸质记录到数字化文本的转变,这导致了OCR(光学字符识别)错误和数据格式不一致的问题。其次,语料库的持续更新和维护需要确保数据的一致性和完整性,尤其是在处理大量历史数据时,如何保持数据质量是一个重要挑战。此外,议会记录中的话语分类和发言人映射的准确性也是需要解决的技术难题。最后,随着数据集的扩展,如何确保新旧数据的兼容性和版本控制也是一个持续的挑战。
常用场景
经典使用场景
瑞典议会语料库(The Swedish Parliament Corpus)为研究者提供了从1867年至今的议会记录,这些记录以Parla-Clarin格式存储,涵盖了议会辩论、成员信息及政府动态等。该数据集的经典使用场景包括政治学研究、历史分析以及语言学研究,尤其是在分析议会辩论的演变、政治话语的变迁以及议员行为模式等方面。通过Pyriksdagen和rcr等工具,研究者可以轻松提取和分析议会记录中的演讲、辩论内容及元数据,从而进行深入的定量和定性分析。
实际应用
在实际应用中,瑞典议会语料库被广泛用于政府决策支持、政策分析和公众教育。例如,政府机构可以利用该数据集分析议会辩论的历史趋势,从而为当前政策制定提供参考。学术机构则可以利用这些数据进行跨学科研究,探讨政治、历史和语言学之间的复杂关系。此外,公众和媒体也可以通过该数据集了解议会动态,增强对政府决策过程的透明度和理解。
衍生相关工作
基于瑞典议会语料库,许多相关研究工作得以展开。例如,有研究利用该数据集分析议会辩论中的语言特征,探讨政治话语的修辞策略。此外,还有研究通过分析议员的行为模式和党派关系,揭示了议会内部的权力动态。在历史学领域,该数据集也被用于研究政策制定的历史背景和政治变迁。这些衍生工作不仅丰富了学术研究,还为政策制定和公众教育提供了宝贵的参考。
以上内容由遇见数据集搜集并总结生成



