five

italian-legal-lab-data

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://huggingface.co/datasets/diatribe00/italian-legal-lab-data
下载链接
链接失效反馈
官方服务:
资源简介:
OpenNormattiva 是一个包含160,000多条意大利法律的公开数据集,数据来源于Normattiva官方网站。该数据集提供完整的法律文本内容、结构化引用(URN格式)、修订追踪记录以及领域分类信息。数据以两种格式提供:JSONL格式(每行一条法律记录)和预构建的SQLite数据库(包含全文搜索FTS5、PageRank算法结果和领域分类)。每条法律记录包含以下字段:唯一资源标识符(URN)、法律标题、法律类型、颁布日期、年份、全文内容以及引用关系(包含目标法律URN和引用文本)。数据集适用于法律信息检索、法律文本分析、法律知识图谱构建等自然语言处理任务。

OpenNormattiva is a public dataset containing over 160,000 Italian laws, sourced from the official Normattiva website. The dataset provides complete legal text content, structured citations (in URN format), revision tracking records, and domain classification information. The data is available in two formats: JSONL (one legal record per line) and a pre-built SQLite database (including full-text search FTS5, PageRank algorithm results, and domain classification). Each legal record includes the following fields: unique resource identifier (URN), legal title, legal type, enactment date, year, full text content, and citation relationships (including target law URN and citation text). The dataset is suitable for natural language processing tasks such as legal information retrieval, legal text analysis, and legal knowledge graph construction.
创建时间:
2026-04-28
原始信息汇总

数据集概述:OpenNormattiva Dataset

数据集名称: OpenNormattiva Dataset
页面地址: https://huggingface.co/datasets/diatribe00/italian-legal-lab-data

基本信息

  • 许可证: MIT
  • 语言: 意大利语(it)
  • 标签: legal, italian-law, normattiva
  • 数据规模: 10万条至100万条(100K < n < 1M)

数据内容

该数据集包含来自意大利法律数据库 Normattiva超过16万条意大利法律,每条法律包含以下信息:

  • 全文文本
  • 结构化引用标识(URN)
  • 修正追踪信息
  • 领域分类

数据文件

  1. data/processed/laws_vigente.jsonl — 所有法律数据,JSONL格式(每行一条法律)
  2. data/laws.db — 预构建的SQLite数据库,支持:
    • FTS5全文搜索
    • PageRank排序
    • 领域分类

数据模式(每条法律的结构)

字段 类型 说明
urn 字符串 法律统一资源名称,例如 urn:nir:stato:legge:2006;290
title 字符串 法律标题
type 字符串 法律类型,例如 legge
date 字符串 法律日期,格式 YYYY-MM-DD
year 字符串 年份,例如 2006
text 字符串 法律全文
citations 数组 引用列表,每个引用包含目标URN和引用标记,例如 {"target_urn": "urn:nir:stato:decreto.legislativo:2016;50", "ref": "d.lgs. 50/2016"}
搜集汇总
数据集介绍
main_image_url
构建方式
在意大利法律数据资源领域,基于国家官方法律门户Normattiva的海量权威文本,精心构建了OpenNormattiva数据集。该数据集囊括逾16万部意大利法律,通过系统化采集与结构化处理,提取每部法律的完整全文、统一资源名称(URN)标识、修正追踪信息及领域分类标签。数据以JSONL格式存储于`data/processed/laws_vigente.jsonl`文件中,每条记录独立成行,同时提供预构建的SQLite数据库`data/laws.db`,集成FTS5全文检索、PageRank算法及领域划分,为法律文本的深度分析与应用奠定坚实基础。
特点
此数据集的核心特色在于其高度结构化与丰富的关联信息。每条法律记录均包含URN作为唯一持久标识,确保跨系统引用的精确性。内嵌的引用字段详细列出了法律文本间的相互引用关系,包括目标URN与常见引用简称,揭示了意大利法律体系错综复杂的修订与依赖网络。此外,数据规模宏大,涵盖百年以上法律演变,结合领域分类,为法律史、立法趋势分析及智能法律检索系统提供了全景式、可溯源的语料库,显著区别于零散的非结构化法律文档集合。
使用方法
使用者可灵活借助两种数据形态展开工作。对于轻量级编程场景,可直接解析JSONL文件,逐行读取法律对象,利用`text`字段进行全文分析或训练法律领域语言模型,通过`citations`列表构建法律引用图谱。针对复杂查询与高效检索需求,推荐加载SQLite数据库`laws.db`,利用其内置的FTS5引擎执行快速关键词搜索,结合PageRank对重要法律进行排序,或按`domain`字段筛选特定领域的法规,如刑法、民法等,极大便利了法律知识图谱构建与立法影响评估研究。
背景与挑战
背景概述
在法律人工智能领域,结构化法律数据的匮乏长期制约着自然语言处理技术的深度应用。意大利法律文本体系庞大且复杂,包含大量跨年份的修订与引用关系,亟需一个系统化、可机读的数据集以支持自动化分析。OpenNormattiva数据集由意大利法律实验室于2023年创建,基于官方Normattiva数据库,收录超过16万部意大利法律文献,涵盖全文文本、结构化URN引用、修订追踪及领域分类信息。其核心研究问题聚焦于如何将分散、非结构化的法律文本转化为可计算的数据资源,以推动法律文本检索、法规影响分析及法律问答等任务的进展。该数据集填补了意大利法律NLP领域的空白,为跨学科研究提供了标准化基准,对欧洲法律信息化进程具有显著示范效应。
当前挑战
该数据集所解决的领域核心挑战在于法律文本的深度结构化与动态演化问题。意大利法律体系包含频繁的条款修正与废止,传统数据集难以追踪版本变迁,而OpenNormattiva通过URN机制实现了对引用关系的精确建模,但跨法律的交叉引用图谱仍存在逻辑歧义,需借助领域知识进行消歧。在构建过程中,团队面临两大技术瓶颈:一是从Normattiva原始HTML中提取结构化字段时,需处理多达数十种文档类型(如法律、法令、条例)的异构格式,正则表达式与解析器需针对不同模板定制优化;二是修订跟踪的溯源难题,同一法律条款在不同时间节点的生效文本需通过时间戳与变更日志对齐,错误率控制在0.5%以下才能保证下游任务可靠性。此外,数据集规模达16万条,对存储效率与查询速度提出严苛要求,团队采用SQLite FTS5全文检索引擎结合PageRank算法,在百毫秒级别内完成跨法律检索,但仍需平衡索引精度与构建开销。
常用场景
经典使用场景
在自然语言处理与法律信息学交叉领域中,Italian Legal Lab Data(OpenNormattiva)数据集因其涵盖超过16万部意大利法律文本、结构化引用信息及修正追踪,成为法律文本分析任务的重要资源。研究者常利用其构建法律文本分类模型,例如根据法律类型(如legge、decreto legislativo)或领域标签进行自动归类。此外,该数据的全文检索功能结合FTS5与PageRank算法,支持法律文本关键词提取与语义相似度计算,从而有效服务于法律条文检索、引用网络分析以及法律知识图谱构建等经典研究场景。
实际应用
在实际应用中,该数据集被广泛用于构建意大利法律领域的智能问答系统与法律文书辅助工具。例如,法律从业者可通过集成该数据的检索接口快速定位特定法条及其修正历史,而司法系统则可利用其结构化引用信息自动生成法律证据链或案件关联分析。此外,基于该数据训练的文本摘要模型,能够辅助律师或法律学生快速获取冗长法律文件的核心要点,显著提升法律信息处理效率。政府机构亦可在立法审查流程中,借助数据集内的版本追踪功能自动比对不同时期法律条文差异,优化法规一致性管理。
衍生相关工作
基于Italian Legal Lab Data数据集,学术界已衍生出一系列经典工作。例如,研究者利用其引用(citations)字段开发了意大利法律引用网络图谱,揭示了立法文本之间的相互依赖关系与立法演进规律;同时,该数据被用于训练意大利语法律BERT模型(如Legal-Italian-BERT),显著提升了法律文本分类、命名实体识别等下游任务的性能。此外,有工作整合该数据集与欧洲法院判例库,探索跨司法管辖区的法律条文对齐与矛盾检测方法,为跨国法律协调研究提供了实证基础。这些衍生研究不仅验证了数据集的高质量,更拓展了其作为多模态法律信息基础设施的学科边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作