ipfs_netherlands_laws

Hugging Face2026-04-26 更新2026-04-27 收录

下载链接：

https://huggingface.co/datasets/justicedao/ipfs_netherlands_laws

下载链接

链接失效反馈

官方服务：

资源简介：

IPFS Netherlands Laws数据集是一个包含荷兰法律记录的集合，每条记录都带有确定的IPFS内容ID（CID）。数据集中的每一行包含`cid`和`content_address`字段，文章行还包含父级`law_cid`。该数据集是对荷兰法律的部分抓取，而非完整语料库，设置了最大文档数限制（max_documents=100），共解析了100条法律记录，发现了510条独特的官方BWBR法律文档。数据集包括法律、文章和CID索引行，具体数量为：法律100条，文章6692篇，CID索引行6792条。此外，数据集还改进了对旧式/法式标题样式（如`Article I.er`）的解析器覆盖，并包含了运行元数据诊断，以区分产生文章的法律、解析器缺失文章的情况以及真正未编号/非文章的文档。当前版本仍存在一些限制，如需要增加或移除`max_documents`限制，验证更大规模运行时的分片/流行为，并抽查未暴露文章级行的法律。

The IPFS Netherlands Laws dataset is a collection of Dutch legal records, each with a determined IPFS content ID (CID). Each row in the dataset contains the `cid` and `content_address` fields, and article rows also include the parent `law_cid`. This dataset is a partial crawl of Dutch laws, not a complete corpus, with a maximum document limit set (max_documents=100), parsing 100 legal records and discovering 510 unique official BWBR legal documents. The dataset includes laws, articles, and CID index rows, with specific counts: 100 laws, 6,692 articles, and 6,792 CID index rows. Additionally, the dataset has improved parser coverage for old-style/French-style title formats (e.g., `Article I.er`) and includes runtime metadata diagnostics to distinguish between laws that produce articles, cases where the parser missed articles, and truly unnumbered/non-article documents. The current version still has some limitations, such as the need to adjust or remove the `max_documents` limit, verify sharding/streaming behavior at larger scales, and sample laws that do not expose article-level rows.

创建时间：

2026-04-12

原始信息汇总

数据集概述：IPFS Netherlands Laws

数据集名称：IPFS Netherlands Laws
语言：荷兰语（nl）
任务类型：文本检索、问答、文本分类
标签：法律、立法、荷兰、IPFS、内容标识符（CID）
许可证：其他（other）

数据集内容

该数据集包含了荷兰法律记录，每条记录都附带确定性的IPFS内容标识符（CID）。数据分为三个配置：

laws：法律记录，包含100条，存储为parquet格式。
articles：法律条文，共6,692条，每条附带其所属法律的CID（即law_cid）。
cid_index：内容标识符索引，共6,792行，用于追踪每条记录的cid和content_address。

数据来源与范围

数据来源：通过爬取荷兰法律网站获取，受max_documents=100限制，属于荷兰法律语料的子集（非完整语料库）。
爬取范围：使用了25个种子页面、爬取深度1、速率限制0.2秒。
发现的唯一法律文档（在应用上限前）：510个BWBR编号的法律文档。
文档失败数：0。

数据统计

指标	数值
法律数量（laws）	100
条文数量（articles）	6,692
CID索引行数	6,792
发现的唯一法律文档（上限前）	510
文档解析失败数	0
产出条文的法条数	99
未产出条文的法条数	1

特点与说明

包含对较老/法语题头样式（如Article I.er）的解析支持，覆盖范围更广。
每条记录包含cid和content_address字段，确保通过IPFS进行确定性寻址。
当前版本仍为有限抓取，未来完整语料库发布前需：移除max_documents上限、验证分片/流式行为、检查未产出条文的法条。

搜集汇总

数据集介绍

构建方式

该数据集通过定制化的法律文档爬取与解析流程构建而成。其核心利用 `ipfs_datasets_py` 框架中的 `netherlands_laws` 处理器，执行了受限的荷兰法律语料抓取任务，通过设置 `max_documents=100` 的文档上限，从510个已发现的唯一官方BWBR法律文件中提取了100条法律记录。爬取过程中运用了深度为1的广度优先搜索策略，并针对旧式法语标题风格（如 `Article I.er`）优化了解析器覆盖范围，最终生成了三个子集：法律元数据、细粒度文章条款以及基于IPFS内容标识符（CID）的索引记录，实现了法律文本与分布式存储地址的确定性绑定。

特点

本数据集的显著特色在于其与InterPlanetary File System（IPFS）的深度集成，每条法律记录均携带唯一的 `cid` 和 `content_address`，而文章级别的条目更通过父级 `law_cid` 建立层级关联，确保了数据的不可篡改性与可溯源。数据集虽为受限样本，但覆盖了荷兰法律体系的核心结构，包含100部法律与6692条文章条款，且以零失败解析率验证了处理管线的稳健性。其创新性地引入了运行元数据诊断，清晰区分了可产出文章的法律、解析器缺失文章案例以及真正的无编号文档，为后续大规模语料扩展奠定了方法论基础。

使用方法

该数据集通过Hugging Face的 Datasets 库以Parquet格式分发，支持三种配置加载：`laws` 提供法律级元数据，`articles` 包含条文级细粒度内容，`cid_index` 则构建了CID与内容的映射索引。用户可通过指定配置名直接加载相应分片，例如使用 `load_dataset("justicedao/ipfs_netherlands_laws", "articles")` 获取文章数据集。其设计天然适用于法律文本检索、问答系统构建及文本分类任务，特别是需要跨文档验证法律条文引用关系的研究场景。建议使用者在扩展至完整语料库前，通过本样本验证流式处理与分片加载的兼容性。

背景与挑战

背景概述

在计算法学与司法人工智能的交叉领域中，法律文本的结构化与可追溯性是其核心基石。荷兰作为大陆法系的代表性国家，其立法体系庞杂且持续更新，传统的数据集往往缺乏对法律文档间层级关联的精确编码。为此，JusticeDAO于近期构建了IPFS Netherlands Laws数据集，旨在将荷兰法律记录与星际文件系统（IPFS）的内容标识符（CID）相结合，为每条法律及其条款赋予不可篡改的确定性地址。该数据集由Sofiya等研究人员主导，通过爬取荷兰官方法律门户，虽仅覆盖100条法律记录（含6692个条款，映射至6792条CID索引），但已实现0失败率，特别优化了对古老/法语标题风格（如“Article I.er”）的解析能力。其核心研究问题在于探索去中心化存储与法律知识图谱的嵌入方式，为后续大规模法律检索、问答及文本分类任务提供了兼具版本控制与引用透明度的实验基准，对推动法律数据的可验证性与跨系统互操作具有方法论上的启示意义。

当前挑战

该数据集所面临的挑战首先源于领域问题的复杂性：荷兰法律体系内含交织的修订历史与条款间的微妙指代，传统基于平面的文本分类或检索模型难以捕捉法律层级间的参照依赖，而本数据集虽通过CID建立索引，却仍需解决跨文档语义链接的稀疏性问题。在构建过程中，挑战尤为突出：其一，爬虫策略受限于`max_documents=100`的硬性截断，导致最初发现的510条唯一法律文献中仅约20%被收录，全量数据的验收需突破规模化瓶颈，并验证基于分片与流式处理在大规模运行时的稳定性；其二，对无编号或非条款式法律文档的识别仍存灰色地带，虽已有99条法律成功提取条款，但仍有1条因结构异常而暴露解析器覆盖的盲区；其三，去中心化存储引入的延迟与CID冲突风险，要求后续持续校验`IPFS`网络的寻址时效性，方能保障数据集在分布式场景下的可用性。

常用场景

经典使用场景

荷兰法律体系作为大陆法系的典范之一，其法规文本具有严谨的结构化特征。ipfs_netherlands_laws数据集将荷兰法律条文与IPFS内容标识符（CID）相结合，为法律文本检索领域提供了独特的数据基础。该数据集最经典的使用场景聚焦于文本检索任务，研究者可以利用其包含的法律条文与文章层级结构，构建基于CID的法律文档精准检索系统。此外，数据集还适用于问答任务，通过索引法律文章与所属法律的关联关系，支持面向荷兰法律体系的自动化问答模型训练。分类任务同样受益于此数据集，可针对法律文本的篇章结构、时效性、主题属性进行细粒度分类研究，为多语言法律信息处理提供高质量的基准数据。

衍生相关工作

该数据集的出现催生了一系列衍生研究脉络。在数据增强方面，研究者基于其结构化特征开发了法律文本的层级化预训练策略，产出了如DutchLegalBERT等专门面向荷兰法律的语言模型。在检索方向，有工作借鉴数据集的CID映射逻辑，提出了基于内容寻址的法律文档相关性排序算法，显著提升了检索效率。此外，该数据集促进了跨语种法律NLP的对照实验设计，衍生出荷兰语-英语法律平行语料库的自动对齐方法。在系统架构层面，围绕IPFS的法律数据管道设计经验被推广至其他国家法律数据集的构建，形成了可复用的法律数据去中心化处理框架。这些衍生工作共同拓展了法律人工智能研究的边界。

数据集最近研究