SOU corpus
收藏github2022-06-16 更新2024-05-31 收录
下载链接:
https://github.com/UppsalaNLP/SOU-corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含经过清理和进一步处理的瑞典政府官方报告——Statens offentliga utredningar (SOU)。数据来源于Riksdagens öppna data的HTML版本,涵盖1994至2020年。数据集经过处理,区分了章节标题和正文,移除了表格、列表、图表及非瑞典语文本,并分为摘要和完整报告。
This dataset comprises cleaned and further processed official reports from the Swedish government, known as Statens offentliga utredningar (SOU). The data originates from the HTML versions available at Riksdagens öppna data, spanning from 1994 to 2020. The dataset has been processed to distinguish between chapter headings and main text, with tables, lists, charts, and non-Swedish text removed. It is divided into summaries and full reports.
创建时间:
2021-05-26
原始信息汇总
数据集概述
数据集名称
SOU corpus
数据集内容
该数据集包含经过清理和进一步处理的瑞典政府官方报告 - Statens offentliga utredningar (SOU)。数据来源于Riksdagens öppna data,涵盖1994年至2020年的文档。
数据处理
-
html/ 目录:
- 区分了章节标题和正文文本。
- 移除了表格、列表、图表以及非瑞典语文本。
- 文档被分割为摘要和完整报告。
- 文件名由文本类型代码和文档ID组成,文本类型代码包括:
- ft: 完整文本
- s: 标准瑞典语摘要
- SEs: 简单瑞典语摘要
- ENs: 英语摘要
-
tagged/ 目录:
- 包含句子分割和依存解析的SOU文本主体版本,保存为csv格式。
- 第二列为处理后的句子,第一列为对应的原始章节标题或标题。
- 使用Swedish spaCy模型进行句子分割和解析。
- 句子分割补充了针对特定情况的规则,如缩写和使用冒号的缩略语。
引用文献
Luise Dürlich, Sebastian Reimann, Gustav Finnveden, Joakim Nivre and Sara Stymne. Cause and Effect in Governmental Reports: Two Data Sets for Causality Detection in Swedish. In Proceedings of the First Workshop on Natural Language Processing for Political Sciences. June 24, 2022. Marseilles, France.
搜集汇总
数据集介绍

构建方式
SOU语料库的构建基于瑞典政府官方报告(Statens offentliga utredningar, SOU),数据来源于瑞典议会的开放数据平台(Riksdagens öppna data),涵盖了1994年至2020年的文档。原始HTML文件经过清洗和处理,去除了表格、列表、图表以及非瑞典语内容,并将文档分为摘要和完整报告。文件名通过文本类型代码和文档ID进行标识,文本类型包括全文、标准瑞典语摘要、简化瑞典语摘要和英语摘要。此外,语料库还提供了句子分割和依存句法分析的版本,使用瑞典语spaCy模型进行处理,并针对特定缩写和语法规则进行了优化。
特点
SOU语料库的特点在于其高度结构化的数据组织形式和丰富的语言处理信息。语料库不仅区分了文档的标题、章节和正文内容,还提供了句子级别的分割和依存句法分析结果。这种精细化的处理使得语料库特别适用于自然语言处理任务,如因果关系检测和文本分析。此外,语料库支持多语言摘要(瑞典语和英语),为跨语言研究提供了便利。其数据来源的权威性和时间跨度也为研究瑞典政府报告的语言演变和政策分析提供了重要资源。
使用方法
使用SOU语料库时,用户可通过文件名中的文本类型代码和文档ID快速定位所需内容。对于需要原始HTML文件的用户,可通过文档ID在瑞典议会开放数据平台获取。语料库中的句子分割和依存句法分析数据以CSV格式存储,便于导入和分析。研究人员可利用这些数据进行自然语言处理模型的训练和评估,或进行特定领域的文本挖掘。此外,语料库的多语言摘要功能为跨语言研究提供了便利,用户可根据需求选择不同语言的摘要进行对比分析。
背景与挑战
背景概述
SOU语料库(SOU corpus)是一个基于瑞典政府官方报告(Statens offentliga utredningar, SOU)的文本数据集,涵盖了1994年至2020年间的文档。该数据集由Luise Dürlich、Sebastian Reimann、Gustav Finnveden、Joakim Nivre和Sara Stymne等研究人员于2022年创建,旨在为瑞典语中的因果关系检测提供支持。数据集的核心研究问题在于如何从政府报告中提取和分析因果关系,这对于政治科学、法律分析以及自然语言处理领域具有重要意义。该数据集通过对原始HTML文档进行清洗和处理,区分了章节标题与正文内容,并移除了表格、列表、图表以及非瑞典语文本,从而为研究者提供了高质量的文本资源。
当前挑战
SOU语料库在构建过程中面临了多重挑战。首先,从政府报告中提取因果关系需要处理复杂的语言结构和多样的表达方式,这对自然语言处理技术提出了较高的要求。其次,原始HTML文档中包含了大量非结构化数据,如表格、列表和图表,这些内容的识别与剔除增加了数据清洗的难度。此外,瑞典语中的缩写、特殊符号(如冒号与缩略词的结合使用)以及多语言混杂现象,进一步加剧了句子分割和依赖解析的复杂性。尽管使用了瑞典语的spaCy模型进行句子分割和解析,仍需通过额外规则处理这些语言现象,以确保数据的准确性和一致性。这些挑战不仅反映了数据集构建的技术难度,也凸显了其在相关领域研究中的潜在价值。
常用场景
经典使用场景
SOU语料库主要用于自然语言处理领域的研究,特别是在瑞典语文本的因果关系检测和句法分析方面。研究者可以利用该数据集中的政府报告文本,进行句子分割、依存句法分析等任务,从而深入理解瑞典语的语言结构和语义关系。
实际应用
在实际应用中,SOU语料库被广泛用于政府文档的自动化处理和信息提取。例如,政府部门可以利用该数据集开发自动化工具,用于快速分析和总结大量政府报告,从而提高政策制定和决策的效率。此外,该数据集还可用于教育领域,帮助学生学习瑞典语的句法结构和语义关系。
衍生相关工作
基于SOU语料库,研究者已经开展了多项经典工作。例如,Luise Dürlich等人利用该数据集开发了因果关系检测模型,并在自然语言处理领域的顶级会议上发表了相关论文。此外,该数据集还被用于瑞典语依存句法分析模型的训练和评估,推动了瑞典语自然语言处理技术的发展。
以上内容由遇见数据集搜集并总结生成



