ParlaMint-no-ana
收藏Hugging Face2025-12-13 更新2025-12-14 收录
下载链接:
https://huggingface.co/datasets/Sprakbanken/ParlaMint-no-ana
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含1998-2022年挪威议会(Stortinget)的辩论内容,采用TEI XML格式,是ParlaMint项目的一部分。数据集按年份组织,每个XML文件代表一次议会会议。数据内容包括演讲(带发言人ID、角色和语言信息)、语言注释(如词元、词性标注和句法依存关系)以及元数据(日期、会议信息和发言人信息)。支持挪威博克马尔语(nb)和挪威尼诺斯克语(nn)。数据来源于挪威议会和ParlaMint项目,采用CC BY 4.0许可。
创建时间:
2025-12-12
原始信息汇总
ParlaMint-NO: 挪威议会语料库数据集概述
数据集基本信息
- 数据集名称: ParlaMint-NO: Norwegian Parliamentary Corpus
- 许可证: Creative Commons Attribution 4.0 International (CC BY 4.0)
- 语言: 挪威语(包含挪威博克马尔语
nb和挪威新挪威语nn) - 标签: parliamentary-debates, norwegian, parlamint, tei-xml, politics
- 数据规模: 100K < n < 1M
- 任务类别: text-classification, text-generation
数据集描述
该数据集包含1998年至2022年的挪威议会辩论(Stortinget)语料,采用TEI XML格式,是ParlaMint项目的一部分。
数据集结构
数据集按年份组织,每个XML文件代表一次议会会议。 目录结构示例如下:
ParlaMint-NO.TEI.ana/ ├── ParlaMint-NO.ana.xml # 包含元数据的主语料库文件 ├── 1998/ │ ├── ParlaMint-NO_1998-10-01-lower.ana.xml │ ├── ParlaMint-NO_1998-10-01-upper.ana.xml │ └── ... ├── 1999/ ├── ... └── 2022/
数据字段
每个XML文件包含以下内容:
- 演讲(
<u>元素): 包含发言人ID、角色(主席/普通议员)和语言的个人发言。 - 语言学标注: 词元、词性标注(通用依存关系)和句法依存关系。
- 元数据: 日期、会议信息、发言人信息。
数据来源
- 原始数据: 挪威议会 (Stortinget)
- TEI转换: ParlaMint 项目
- 句柄: http://hdl.handle.net/11356/1432
引用信息
bibtex @misc{parlamint-no, title = {ParlaMint-NO: Norwegian Parliamentary Corpus}, author = {Tungland, Lars Magne}, year = {2021}, publisher = {CLARIN}, url = {http://hdl.handle.net/11356/1432} }
搜集汇总
数据集介绍

构建方式
在政治语言学与计算社会科学领域,ParlaMint-no-ana数据集的构建体现了对挪威议会话语的系统性归档。该数据集源自挪威议会(Stortinget)1998年至2022年的公开辩论记录,通过ParlaMint项目进行了标准化处理,转化为符合TEI XML规范的格式。构建过程不仅保留了原始文本,还整合了丰富的元数据,包括发言者身份、会议日期及议会院别,并在此基础上添加了词形还原、词性标注及句法依存关系等语言学注释,从而形成了一个结构严谨、机器可读的语料库。
特点
该数据集的核心特点在于其多维度标注与双语覆盖。语料全面收录了挪威议会上下两院的辩论内容,时间跨度长达二十五年,为研究政治话语的历时演变提供了翔实材料。数据以XML文件按年份组织,每个文件对应单次议会会议,确保了结构的清晰性与可追溯性。尤为突出的是,数据集同时包含了挪威的两种官方书面语变体——博克马尔语和新挪威语,并附有基于通用依存关系的句法标注,这为跨语言比较和深层语言学分析创造了独特条件。
使用方法
对于研究者而言,该数据集为政治学、语言学及计算社会科学的多项任务提供了基础资源。用户可通过解析TEI XML文件,提取结构化的发言文本、关联的元数据及语言学注释,进而应用于文本分类、话语分析或语言模型训练。数据集支持对特定时期、政党或发言人的话语进行聚焦研究,也可用于分析语言变体的使用模式或政治议题的演变轨迹。其标准化的格式便于与ParlaMint项目下的其他欧洲议会语料进行对比研究,推动跨国的比较政治话语分析。
背景与挑战
背景概述
ParlaMint-no-ana数据集作为ParlaMint项目的重要组成部分,由CLARIN等研究机构于2021年正式发布,旨在系统性地收录挪威议会(Stortinget)自1998年至2022年的辩论记录。该数据集以TEI XML格式构建,不仅提供了原始文本,还融入了词性标注、句法依存等语言学注释,为政治话语分析、语言政策研究及多语言自然语言处理任务提供了关键资源。其核心研究问题聚焦于如何通过结构化与标准化的方式,促进跨语言、跨时期的议会语料比较分析,从而深化对民主进程与政治沟通模式的理解,对计算社会科学与语料库语言学领域产生了深远影响。
当前挑战
在解决政治话语分析与多语言文本处理等核心领域问题时,ParlaMint-no-ana数据集面临诸多挑战:其一,挪威语包含博克马尔语和新挪威语两种官方变体,语言变异性增加了模型训练与跨方言一致性标注的难度;其二,议会辩论涉及复杂的修辞结构、即兴发言与专业术语,准确识别发言者意图与情感倾向成为自然语言理解的关键障碍。在构建过程中,挑战同样显著:原始数据格式多样且时间跨度长达二十余年,需进行大规模的数据清洗与标准化转换;同时,语言学注释的添加依赖于自动工具与人工校验的结合,确保标注质量与一致性耗费了大量资源,这些因素共同构成了数据集开发与应用中的核心难点。
常用场景
经典使用场景
在政治语言学和计算社会科学领域,ParlaMint-no-ana数据集为研究者提供了系统分析挪威议会辩论的宝贵资源。其经典使用场景集中于对挪威语(包括博克马尔语和新挪威语)政治话语的历时性考察,通过标注的词性、句法依存关系和元数据,支持对议员发言模式、议题演变及语言风格变化的量化研究。该数据集常被用于构建政治倾向分类模型,或探索多语言议会语境下的语言变异现象,为深入理解挪威政治生态提供了数据基础。
解决学术问题
该数据集有效解决了政治话语分析中缺乏大规模、结构化多语言语料库的学术难题。它使得研究者能够系统探究立法机构中语言使用的动态特征,例如政党立场与语言策略的关联、辩论中修辞手法的历时变化,以及挪威双语政策在议会实践中的体现。通过提供标准化的TEI-XML格式和语言学标注,该数据集促进了跨语言比较研究和可复现性分析,对政治学、社会语言学及计算语言学的交叉研究具有重要理论意义。
衍生相关工作
围绕该数据集已衍生出多项经典研究工作,包括基于议会发言的政党意识形态自动分类、挪威语政治术语演变分析,以及跨国家议会语料对比研究。例如,部分研究利用其时间跨度探索了气候议题在挪威议会中话语权重的变化;另有工作结合发言者角色与语言特征,揭示了议会程序中权力与语言使用的互动关系。这些研究不仅深化了对挪威政治沟通的理解,也为ParlaMint跨国议会语料库项目的比较框架提供了方法论参考。
以上内容由遇见数据集搜集并总结生成



