normattiva-lab-data

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://huggingface.co/datasets/diatribe00/normattiva-lab-data

下载链接

链接失效反馈

官方服务：

资源简介：

OpenNormattiva 数据集是一个包含超过 160,000 条意大利法律文本的资源，数据来源于 Normattiva。每条法律记录包含全文、结构化引用（URN）、修订跟踪和领域分类信息。数据集以 JSONL 和 SQLite 数据库两种格式提供，其中 SQLite 数据库还包含 FTS5、PageRank 和领域分类信息。每条法律记录的 schema 包括以下字段：URN（唯一资源标识符）、标题、法律类型、颁布日期、年份、法律文本以及引用其他法律的结构化信息。该数据集适用于法律信息检索、法律文本分析和法律知识图谱构建等任务。

The OpenNormattiva dataset is a resource containing over 160,000 Italian legal texts sourced from Normattiva. Each legal record includes full text, structured citations (URN), revision tracking, and domain classification information. The dataset is provided in both JSONL and SQLite database formats, with the SQLite database additionally containing FTS5, PageRank, and domain classification information. The schema for each legal record includes the following fields: URN (Unique Resource Identifier), title, legal type, enactment date, year, legal text, and structured information citing other laws. This dataset is suitable for tasks such as legal information retrieval, legal text analysis, and legal knowledge graph construction.

创建时间：

2026-04-26

原始信息汇总

数据集概述

数据集名称：OpenNormattiva Dataset
许可协议：MIT
语言：意大利语
标签：法律、意大利法律、Normattiva
数据集规模：10万条至100万条

数据内容

包含超过 16万条意大利法律，数据来源于 Normattiva
每条法律记录包含：
- 完整原文
- 结构化引用标识（URN）
- 修订追踪信息
- 领域分类

文件与格式

JSONL 文件：data/processed/laws_vigente.jsonl，每行一条法律记录
SQLite 数据库：data/laws.db，预构建，支持 FTS5全文搜索、PageRank 和 领域分类

数据结构（每条法律）

字段	说明	示例
`urn`	唯一引用标识	`urn:nir:stato:legge:2006;290`
`title`	法律标题	`...`
`type`	法律类型	`legge`
`date`	发布日期	`2006-12-27`
`year`	发布年份	`2006`
`text`	完整法律文本	`...`
`citations`	引用列表（包含目标URN和引用文本）	`[{"target_urn": "urn:nir:stato:decreto.legislativo:2016;50", "ref": "d.lgs. 50/2016"}]`

搜集汇总

数据集介绍

构建方式

该数据集源自意大利官方法律数据库Normattiva，构建过程遵循严谨的结构化处理流程。通过自动化采集与人工校验相结合的方式，对超过16万部意大利法律文献进行全文提取与系统整理。每部法律均被赋予标准化的URN编号，确保其在法律体系中的唯一标识，并附带详尽的元数据，包括标题、类型、颁布日期及年份。在此基础上，数据集的构建者进一步实施了引用关系解析，通过识别并提取法律文本中指向其他法案的引用信息，形成跨法律文档的引用网络。最终，所有处理后的数据以JSONL格式存储，同时提供了预构建的SQLite数据库，集成了FTS5全文搜索、PageRank排序及领域分类功能，便于高效查询与分析。

特点

该数据集的核心特色在于其覆盖的广度与深度。收录超过16万部意大利法律，涵盖从历史经典到现行有效的各类法案，为意大利法律研究提供了前所未有的数据基石。其结构化体系尤为突出，每部法律不仅包含完整的原始文本，还通过URN实现精准的永久性标识，并经由引用解析刻画了法律间的内在关联。这种引用网络使得研究人员能够追溯立法沿革、司法解释的交互影响。此外，数据集引入了基于PageRank的排序算法，可评估法律文献的相对重要性，而领域分类标签则为跨学科应用提供了便利。预构建的SQLite数据库将FTS5全文索引与这些高级特性相融合，极大降低了使用门槛。

使用方法

使用者可通过两种途径便捷地接入该数据集。其一，直接解析`laws_vigente.jsonl`文件，该文件每行包含一条完整的法律JSON对象，适合在Python等编程环境中进行灵活的自定义分析。使用时只需读取文件，逐行解析JSON即可获得每条法律的URN、标题、全文、引用列表及各类元数据。其二，利用预构建的SQLite数据库`laws.db`，该数据库已集成FTS5全文搜索功能，允许用户执行复杂的SQL查询，例如通过全文索引快速检索特定条款，或利用PageRank值筛选高影响力法律。同时，数据库中的领域分类字段支持按主题聚类分析。建议结合`sqlite-utils`或`duckdb`等工具，以充分挖掘其结构化查询与联合检索的潜力。

背景与挑战

背景概述

在法律人工智能与自然语言处理领域，结构化法律数据的匮乏长期制约着文本挖掘、信息检索与知识推理等研究的深化。normattiva-lab-data数据集由研究团队于近年创建，源自意大利官方法律门户Normattiva，汇集了超过16万部意大利法律全文，并配备了统一的标准化引用标识符（URN）、修正追踪机制及领域分类标签。该数据集的核心贡献在于将分散、庞杂的官方法律文本转化为机器可读的、具有明确引用关系与版本演变信息的高质量语料库，为跨法条关联分析、法规动态监测以及法律知识图谱构建等研究提供了坚实的基准资源，显著推动了意大利法律文本的计算语言学与信息学发展。

当前挑战

该数据集面临的核心挑战之一在于法律文本固有的结构复杂性与语义模糊性，包括跨越数十年的法规修正链的准确刻画、不同法律类型间的交叉引用消歧，以及法律语言中隐含的时间效力与管辖范围判定，这远超通用文本分类与信息抽取任务的难度。在构建过程中，挑战源自对Normattiva官方源的持续爬取与增量更新，维护URN体系的一致性和修正追溯的完整性，需处理大量非结构化历史文本的清洗与标准化，同时确保跨版本法律条文的无损对齐与领域标签的专家级标注质量，这对数据管道的鲁棒性与可扩展性提出了严苛要求。

常用场景

经典使用场景

在意大利法律文本分析领域，normattiva-lab-data数据集汇聚了超过16万部意大利法律全文及其结构化元数据，涵盖统一的资源名称（URN）、修正追踪与领域分类信息。其最经典的使用场景在于法律文本的语义检索与跨文档引用分析，研究者可借助该数据集精准定位特定法律条文及其历史修订脉络，亦可解析法律间的交叉引用关系，构建意大利法律体系的语义网络。此外，该数据集因包含完整的法律全文与结构化的引用链路，成为训练面向意大利法律场景的自然语言处理模型（如法律语义相似度计算、法律条款自动分类）的理想语料库。

实际应用

在实际应用中，normattiva-lab-data数据集为意大利司法实践与法律科技行业注入了变革性动力。法律实务工作者可借助该数据集构建智能法律检索系统，实现从海量法规中秒级定位与案件最相关的现行有效条款。法律科技公司利用其结构化引用信息开发合规性审查工具，辅助企业自动评估业务操作是否违背最新立法。此外，该数据集还赋能公共立法门户的升级，使公民与律师能够通过交互式界面探索法律变迁轨迹，降低法律信息获取的认知门槛，提升司法透明度与法治可及性。

衍生相关工作

围绕normattiva-lab-data数据集，学术界与工业界衍生出一系列经典工作。在模型层面，研究者基于该数据训练了面向意大利法律的BERT变体Legal-Italian-BERT，专门用于法律文本的语义理解与分类任务。在工具层面，出现了能够自动提取法律条款间时空引用关系的解析器，以及支持多版本法律文本对比的差分算法。此外，该数据集还催生了意大利法律知识图谱项目，将文本中的实体与概念映射为可推理的图结构，并进一步启发了欧盟层面跨成员国法律文献标准化对齐的研究，推动了跨国法律信息互操作平台的构想。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集