GerParCor
收藏github2024-03-15 更新2024-05-31 收录
下载链接:
https://github.com/texttechnologylab/GerParCor
下载链接
链接失效反馈官方服务:
资源简介:
GerParCor是2022年收集并发布的最大德语议会协议语料库,涵盖三个世纪以来德国、奥地利、瑞士和列支敦士登的国家和联邦层面的议会协议。该数据集首次提供了多种未数字化且无法统一检索和处理的议会协议,并使用NLP方法进行了预处理,以XMI格式提供。此外,该更新还包括了所有新的议会协议,并覆盖了至1797年的时期,同时提供了API等进一步的再利用能力。
GerParCor, the largest corpus of German parliamentary protocols, was collected and released in 2022, encompassing national and federal parliamentary protocols from Germany, Austria, Switzerland, and Liechtenstein over three centuries. This dataset is the first to provide a variety of previously undigitized and unsearchable parliamentary protocols, preprocessed using NLP methods and made available in XMI format. Additionally, this update includes all new parliamentary protocols and covers the period up to 1797, while also offering further reuse capabilities such as an API.
创建时间:
2022-01-14
原始信息汇总
数据集概述
名称: GerParCor(German Parliamentary Corpus)
描述: GerParCor是2022年收集并发布的最大的德语议会记录语料库,涵盖了德国、奥地利、瑞士和列支敦士登的国家和联邦级别的议会记录,跨越三个世纪。该数据集首次提供了多种未数字化的议会记录,并采用NLP方法进行预处理,以XMI格式提供。此外,该数据集已更新,包括了新的议会记录,覆盖时间至1797年,并采用了新的NLP预处理技术。
更新内容: 数据集更新包括新增的议会记录和预处理,以及提供API等进一步的再利用能力。
数据集内容
议会记录列表:
| # | 议会名称 | 会议次数 | 起始日期 | 结束日期 | 下载链接 |
|---|---|---|---|---|---|
| 1 | Reichstag (NG + Zoll) | 1990 | 1867-02-25 | 1895-05-24 | 下载 |
| 2 | Reichstag (Empire) | 2183 | 1895-12-03 | 1918-10-26 | 下载 |
| 3 | Weimar Republic | 1328 | 1919-02-06 | 1932-12-09 | 下载 |
| 4 | ThirdReich | 20 | 1933-03-21 | 1942-04-24 | 下载 |
| 5 | Bundesrat | 1008 | 1949-09-07 | 2021-10-08 | 下载 |
| 6 | Bundestag | 4158 | 1949-09-07 | 2021-09-07 | 下载 |
| ... | ... | ... | ... | ... | ... |
| 25 | Nationlarat (CH) | 368 | 1999-12-06 | 2021-12-09 | 下载 |
引用信息
若使用该数据集,请引用以下文献:
- G. Abrami, M. Bagci, L. Hammerla, and A. Mehler, “German Parliamentary Corpus (GerParCor),” in Proceedings of the Language Resources and Evaluation Conference, Marseille, France, 2022, pp. 1900-1906.
- G. Abrami, M. Bagci and A. Mehler, “German Parliamentary Corpus (GerParCor) Reloaded,” in Proceedings of the 2024 Joint International Conference on Computational Linguistics, (LREC-COLING 2024), Torino, Italy, 2024, pp. 7707-7716.
搜集汇总
数据集介绍

构建方式
GerParCor数据集的构建基于德国、奥地利、瑞士和列支敦士登等国家及联邦层面的议会会议记录,涵盖了三个世纪的历史文献。这些文献首次以数字化形式呈现,并通过统一的格式进行处理。数据集的构建过程包括收集、整理和预处理,采用了自然语言处理(NLP)技术,最终以XMI格式发布。此外,数据集在2024年进行了更新,新增了更多议会记录,并引入了先进的NLP预处理方法,以应对大规模文本数据的处理需求。
特点
GerParCor数据集的特点在于其广泛的时间跨度和地理覆盖范围,涵盖了从1797年至今的议会会议记录。数据集不仅提供了原始的文本数据,还经过了NLP技术的预处理,使得研究者能够直接进行深入分析。此外,数据集以XMI格式发布,便于与其他NLP工具和平台进行集成。GerParCor的更新版本还提供了API接口,进一步增强了数据集的可用性和可扩展性。
使用方法
GerParCor数据集的使用方法包括通过其官方网站或API接口获取数据。研究者可以根据需要下载特定议会或时间段的会议记录,数据以压缩包形式提供,解压后即可使用。数据集支持多种NLP任务,如文本分类、信息提取和语言模型训练等。此外,数据集的使用需遵循引用规范,确保学术研究的透明性和可追溯性。
背景与挑战
背景概述
GerParCor(German Parliamentary Corpus)是由Giuseppe Abrami、Mevlüt Bagci、Leon Hammerla和Alexander Mehler等研究人员于2022年创建的一个德语议会语料库。该语料库涵盖了德国、奥地利、瑞士和列支敦士登三个世纪以来的国家和联邦层面的议会记录,是迄今为止最大规模的德语议会语料库。GerParCor的创建旨在解决历史议会记录数字化和统一处理的问题,首次提供了大量此前无法获取或处理的议会协议。通过自然语言处理(NLP)技术的预处理,语料库以XMI格式发布,并不断更新以涵盖更早的历史时期,如1797年以前的记录。GerParCor的发布为政治学、历史学和语言学等领域的研究提供了宝贵的资源。
当前挑战
GerParCor在构建过程中面临多重挑战。首先,历史议会记录的数字化和统一处理是一个复杂的技术问题,尤其是早期记录的保存格式多样,且部分记录尚未数字化。其次,语料库的规模庞大,涵盖了多个国家和不同时期的议会记录,如何在保证数据一致性的同时进行有效的NLP预处理是一个技术难题。此外,语料库的更新和维护需要持续的技术支持和资源投入,以确保新数据的及时整合和预处理。在应用层面,GerParCor的广泛使用也面临挑战,如如何通过API等工具实现高效的数据访问和共享,以及如何满足不同研究领域对语料库的多样化需求。
常用场景
经典使用场景
GerParCor数据集作为德语议会语料库,广泛应用于语言学和计算语言学领域。研究者利用该数据集进行文本挖掘、语义分析和语言模型训练,特别是在处理历史文献和现代议会记录时,GerParCor提供了丰富的语料资源。其跨世纪的文本覆盖使得研究者能够深入探讨语言演变和政治话语的变化。
衍生相关工作
GerParCor的发布催生了一系列相关研究,特别是在议会文本分析和历史语言学研究领域。基于该数据集的研究成果包括议会话语分析、政治语言模型构建以及历史文本的数字化处理。这些工作不仅丰富了德语语言资源,还为跨学科研究提供了新的视角和方法。
数据集最近研究
最新研究方向
在自然语言处理领域,GerParCor数据集的最新研究方向聚焦于如何利用先进的NLP技术对大规模议会文本进行深度分析与处理。随着2024年LREC-COLING会议的更新,GerParCor不仅扩展了其时间跨度至1797年,还引入了更为先进的预处理方法,以应对大规模文本语料库的挑战。这一更新使得研究者能够更精确地挖掘历史议会文本中的语言模式、政治话语演变以及社会变迁的线索。此外,GerParCor通过提供API等多样化访问方式,进一步推动了其在政治学、历史学和计算语言学等跨学科研究中的应用。这一数据集的前沿研究不仅为德语议会文本的数字化处理提供了新的技术路径,也为全球议会语料库的构建与分析树立了标杆。
以上内容由遇见数据集搜集并总结生成



