俄罗斯法律开放数据

Name: 俄罗斯法律开放数据
Creator: 欧洲大学圣彼得堡分校法律研究所
Published: 2024-06-07 19:38:12
License: 暂无描述

arXiv2024-06-07 更新2024-06-21 收录

下载链接：

https://github.com/irlcode/RusLawOD

下载链接

链接失效反馈

官方服务：

资源简介：

俄罗斯法律开放数据是由欧洲大学圣彼得堡分校法律研究所创建的综合性数据集，收录了1991年至2023年的281,413份非秘密联邦法规和法案文本，总计176,523,268个tokens。数据集包含两个版本：原始文本和为语言分析准备的带有形态句法标记的版本。创建过程涉及从俄罗斯立法网站抓取原始文本，并进行形态句法标记处理。该数据集主要用于法律文本的复杂性和可读性研究，旨在解决法律文本分析中的语言学问题。

Russian Legal Open Data is a comprehensive dataset created by the Institute of Law, European University at Saint Petersburg. It contains 281,413 unclassified federal regulations and legislative texts spanning from 1991 to 2023, with a total of 176,523,268 tokens. The dataset includes two versions: the raw text version and the morphosyntactically annotated version prepared for linguistic analysis. Its creation process involves crawling raw texts from Russian legislative websites and performing morphosyntactic annotation processing. This dataset is primarily used for research on the complexity and readability of legal texts, aiming to address linguistic issues in legal text analysis.

提供机构：

欧洲大学圣彼得堡分校法律研究所

创建时间：

2024-06-07

搜集汇总

数据集介绍

构建方式

在俄罗斯法律文本数字化进程中，该数据集通过系统化网络爬取技术构建而成。研究团队于2017年至2024年间，分阶段从俄罗斯官方法律信息平台“俄罗斯立法”（pravo.gov.ru）采集了1991年至2023年间的全部非保密联邦法规与法案文本，共计281,413份文档，涵盖1.765亿词汇。采集流程包括年度文档列表收集、唯一标识符提取、网页请求与解析、文本清洗及形态句法标注等环节。最终数据以符合Akoma Ntoso标准的XML格式存储，每条记录均包含原始文本、形态句法标注版本及丰富的元数据字段，形成机器可读的法律语料库。

特点

该数据集具备时空跨度与结构完整性双重特征。其时间范围覆盖后苏联时代三十余年的立法演进，完整呈现俄罗斯联邦法律体系的发展轨迹。语料库提供原始文本与预处理版本双轨数据：原始版本保留法律文档的初始形态，而预处理版本则通过正则表达式规则移除标题、附录、签名等非正文元素，并采用ru-syntax工具链进行形态句法与依存关系标注，输出符合通用依存格式的CONLL-U文件。数据集特别设置“广泛使用”标志位，可快速筛选核心法律文本，其元数据体系包含发布机构、文档类型、生效状态等二十余个维度，为多维分析提供结构化支撑。

使用方法

该数据集适用于计算法学与语言学研究领域。研究者可通过GitHub仓库获取经CC BY-NC 4.0许可的语料资源，原始法律文本依据俄罗斯著作权法豁免条款可自由分发。在应用层面，预处理版本可直接用于法律文本复杂度分析、术语抽取、句法模式挖掘等自然语言处理任务；原始XML版本配合完整元数据，支持立法变迁量化研究、法律效力网络构建等跨学科分析。使用中需注意法律状态信息仅反映采集时点的官方记录，且表格等非连续文本元素已在预处理阶段移除，建议结合原始版本进行补充验证。

背景与挑战

背景概述

在法学与计算语言学的交叉领域，俄罗斯法律开放数据集的构建标志着对俄语法律文本系统性数字化的关键进展。该数据集由圣彼得堡欧洲大学法治研究所的Denis Saveliev与Ruslan Kuchakov团队于2024年正式发布，涵盖了1991年至2023年间全部非机密联邦法规与法案，总计281,413份文本。其核心研究目标在于填补俄语法律语料库的空白，为法律文本的可读性分析、语言复杂性研究及自然语言处理应用提供标准化资源。该数据集通过整合原始文本与经过形态句法标注的版本，不仅推动了法律信息学的实证研究，也为跨学科探索立法语言演变奠定了数据基础。

当前挑战

该数据集致力于解决法律文本自动化处理与深度分析的领域挑战，具体包括俄语法律文档的句法结构特殊性、术语复杂性以及历史版本追踪困难等问题。在构建过程中，研究团队面临多重技术障碍：首先，原始数据来源于官方发布平台，其HTML格式随时间推移呈现不一致性，早期文档包含非标准布局与伪图形表格，需通过正则表达式与规则集进行清洗；其次，法律文本中大量缩写、列表项及固定结构块（如标题、附录）干扰了自动分句与标注流程，要求设计定制化预处理管道；此外，数据集成需平衡文本完整性分析与元数据丰富性，同时确保符合开放数据许可与版权法规要求。

常用场景

经典使用场景

在计算法学与法律信息学领域，俄罗斯法律开放数据集为研究者提供了大规模、结构化的法律文本资源。该数据集最经典的使用场景在于支持法律文本的定量分析与自然语言处理研究，例如通过词频统计、句法解析和主题建模等方法，系统性地揭示俄罗斯联邦法律法规的语言特征、演变规律及结构模式。这些分析有助于从宏观视角理解法律体系的复杂性与动态性，为法律实证研究奠定数据基础。

衍生相关工作

围绕该数据集已衍生出多项经典研究工作，例如库恰科夫与萨维利耶夫合作开展的法律文本可读性研究，通过量化分析揭示了俄罗斯法律条文在词汇与句法层面的复杂性特征。此外，布利诺娃和塔拉索夫基于类似语料进行了法律子风格与体裁的语言复杂性比较，进一步拓展了法律语言学的实证边界。这些研究不仅验证了数据集的应用价值，也为后续的法律文本挖掘、智能司法辅助系统开发提供了方法论参考。

数据集最近研究