five

normattiva-data

收藏
Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://huggingface.co/datasets/diatribe00/normattiva-data
下载链接
链接失效反馈
官方服务:
资源简介:
OpenNormattiva 数据集是一个包含超过 16 万条意大利法律条文的开源数据集,数据来源于 Normattiva 平台。数据集采用 MIT 许可证,语言为意大利语,主要涉及法律和意大利法律领域。数据规模在 10 万到 100 万条之间。数据集提供了多种格式的文件,包括每行一条法律记录的 JSONL 文件、预构建的 SQLite 数据库(支持 FTS5)、用于快速浏览的摘要 CSV 文件以及法律引用关系图。每条法律记录包含以下字段:唯一资源标识符(URN)、标题、类型、日期以及引用信息(包括目标 URN、引用参考和条款)。数据集通过 GitHub Actions 每晚自动更新。
创建时间:
2026-04-09
搜集汇总
数据集介绍
main_image_url
构建方式
在意大利法律信息数字化进程中,OpenNormattiva数据集通过系统化采集与结构化处理,构建了一个覆盖广泛的法律文本资源库。该数据集源自意大利官方法律门户Normattiva,利用自动化爬虫技术获取了超过16万条法律条文,并采用统一资源名称(URN)体系对每项法律进行唯一标识。数据提取过程不仅保留了法律全文,还精细解析了条文间的引用关系,同时追踪了法律修订历史,并依据专业分类体系对法律领域进行标注,最终形成结构化的JSONL格式文件与预构建的SQLite数据库。
特点
OpenNormattiva数据集的核心特征体现在其多维度的结构化设计与丰富的元信息集成。每条法律记录均包含完整的文本内容、颁布日期、法律类型及标准化的URN标识,确保了数据的权威性与可追溯性。数据集特别强化了法律条文间的引用网络,通过明确的引证关系揭示了法律体系的内部关联;同时,修订跟踪功能记录了法律的历史演变,而领域分类则为法律文本的主题分析提供了便利。此外,预置的SQLite数据库支持全文检索与PageRank算法,进一步提升了数据查询与网络分析的效率。
使用方法
该数据集为法律信息检索、自然语言处理及计算法学研究提供了直接可用的数据基础。研究者可通过加载JSONL文件逐条解析法律内容,或直接访问预建的SQLite数据库,利用其全文搜索功能快速定位相关条文。在应用层面,结构化引用数据可用于构建法律知识图谱,分析法律体系的演进脉络;文本内容可用于训练法律领域的语言模型,支持自动摘要、分类或问答任务;而修订历史与分类信息则有助于开展法律时效性分析与领域专项研究。
背景与挑战
背景概述
在自然语言处理与法律信息学交叉领域,意大利法律文本的数字化与结构化分析长期面临数据分散、格式不统一的困境。Normattiva-data数据集由研究团队基于意大利官方法律门户Normattiva构建,旨在系统整合超过16万条意大利法律条文,每条记录均包含全文、结构化引用、修订追踪及领域分类信息。该数据集通过统一资源名称(URN)体系实现了法律条文间的精准关联,为法律文本挖掘、智能检索及法规演化分析提供了高质量语料,显著推动了计算法学在意大利语语境下的实证研究进展。
当前挑战
该数据集致力于解决法律文本自动化处理中的核心挑战,包括复杂法律语言的语义解析、跨条文引用网络的构建以及法律修订历史的动态追踪。在构建过程中,研究人员需克服原始数据异构性高、非结构化文本提取困难以及法律条文间引用关系标准化等难题。此外,确保数据时效性与法律效力状态的准确标注,同时维护大规模法律语料的完整性与一致性,亦是数据集构建面临的关键技术障碍。
常用场景
经典使用场景
在法律信息学领域,normattiva-data数据集为意大利法律文本的深度分析提供了基础。该数据集收录了超过16万条意大利法律条文,包含完整的文本内容、结构化引用信息以及修订追踪记录,常被用于训练和评估法律文本理解模型。研究者利用其丰富的标注信息,能够系统性地探索法律条文之间的引用网络,从而揭示法律体系的内在结构和演化规律。
实际应用
在实际应用中,normattiva-data数据集支撑了智能法律检索系统和立法影响评估工具的开发。法律科技公司可以基于此数据集构建更精准的法律条文搜索引擎,帮助律师和公民快速定位相关法规及其历史修订。政府部门也能利用其进行立法后评估,分析新法案对现有法律体系产生的连锁影响,从而提升立法工作的科学性和透明度。
衍生相关工作
围绕normattiva-data数据集,已衍生出多项经典研究工作。例如,有研究利用其引用网络计算法律条文的重要性排名,类似于学术文献的PageRank算法。另有工作专注于基于该数据集训练意大利语法律文本的分类与摘要模型。这些研究不仅深化了对意大利法律体系的理解,也为其他语种的法律文本处理提供了可迁移的方法论框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作