five

ipfs_netherlands_laws_bm25_index

收藏
Hugging Face2026-04-26 更新2026-04-27 收录
下载链接:
https://huggingface.co/datasets/justicedao/ipfs_netherlands_laws_bm25_index
下载链接
链接失效反馈
官方服务:
资源简介:
IPFS Netherlands Laws BM25 Index 是一个荷兰语的法律相关数据集,存储于 IPFS 上,包含稀疏 BM25 文档和发布表,通过源 CID 进行索引。该数据集覆盖了 6792 个文档和 16648 个术语,来源于配对的 CID 数据集。需要注意的是,当前源数据集可能不完整,除非配对的基数据集清单或运行元数据证明其具有完整的发现覆盖范围,否则不应将其描述为完整的荷兰语语料库。配对的基数据集还包括文章提取诊断和针对旧式/法语标题样式的解析器覆盖改进。数据集适用于法律文本分析、信息检索等任务。

IPFS Netherlands Laws BM25 Index is a Dutch legal-related dataset stored on IPFS, containing sparse BM25 documents and publication tables, indexed by source CID. The dataset covers 6792 documents and 16648 terms, sourced from paired CID datasets. It should be noted that the current source dataset may be incomplete and should not be described as a complete Dutch corpus unless paired base dataset manifests or runtime metadata prove it has complete discovery coverage. The paired base datasets also include article extraction diagnostics and parser coverage improvements for old-style/French title styles. The dataset is suitable for legal text analysis, information retrieval and other tasks.
创建时间:
2026-04-12
原始信息汇总

数据集概述

数据集名称: IPFS Netherlands Laws BM25 Index
目标存储库: justicedao/ipfs_netherlands_laws_bm25_index
语言: 荷兰语 (nl)
标签: IPFS, CID, 法律
许可证: 其他 (other)

数据集结构

该数据集包含两个配置(config):

  • documents: 训练集,数据文件位于 parquet/documents/*.parquet
  • terms: 训练集,数据文件位于 parquet/terms/*.parquet

数据集内容

  • 提供基于源CID(内容标识符)的稀疏BM25文档和倒排索引表。
  • 覆盖来自配对CID数据集的 6792 个文档16648 个术语
  • 当前源数据集可能受限,不建议将其描述为完整的荷兰语语料库,除非配对的基础数据集清单或运行元数据能证明其覆盖了全部发现范围。
  • 配对的基础数据集包含文章提取诊断信息以及对较旧/法文标题风格的解析器覆盖改进。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集针对荷兰法律文献构建了一个稀疏BM25索引,涵盖6792份文档与16648个术语,索引表以源内容的唯一标识符(CID)为键。构建过程基于配对的数据集,并集成了文章提取诊断工具与解析器覆盖优化机制,尤其针对老旧及法文标题风格进行了改进,从而提升了索引的精确度与完整性。
特点
该索引结构分为文档表与词项表两大配置,以Parquet格式存储,便于高效加载与查询。数据来源限定于配对CID数据集,并非完整的荷兰语法律语料库,因此其覆盖范围具有明确的边界,适合作为特定法律文献检索任务的稀疏检索基准。
使用方法
用户可通过Hugging Face Datasets库加载该索引,指定配置名称为'documents'或'terms',并使用对应的Parquet文件路径。加载后,可基于CID进行文档检索或词项查询,适用于法律文本的稀疏向量检索与相关信息检索实验。
背景与挑战
背景概述
该数据集由JusticeDAO于近期创建,聚焦荷兰法律领域的稀疏检索索引构建。作为法律文本与信息检索交叉领域的创新成果,它依托IPFS分布式存储技术,针对荷兰语法律文献设计了BM25索引结构,涵盖6792份文档与16648个检索词项。数据集的诞生源于法律知识图谱与去中心化存储的融合探索,旨在提升法律条文检索的可及性与效率,为司法数据开源生态奠定基础。其影响力体现在为多语种法律文本的语义索引提供了可复现的技术范式。
当前挑战
当前数据集面临的首要领域挑战是法律文本的领域特性与通用检索模型的适配问题——荷兰语法律术语的复合词结构、同义表述及历史文献的编码差异(如早期法语标题格式)显著增加了检索噪声。构建过程中,数据清洗需处理不完整的来源文献,且索引规模受限于原始语料库的覆盖范围,难以保证全面反映荷兰法律体系全貌。此外,IPFS的地址可变性给索引的长期稳定关联带来维护难题,术语词典的时效性更新亦构成持续挑战。
常用场景
经典使用场景
在司法信息检索与法律自然语言处理领域,该数据集作为基于BM25稀疏检索的索引资源,主要用于荷兰法律法规的全文检索与关键词匹配任务。研究者可借助文档表和词项表,通过源CID实现高效的法律条文定位与相关性排序,尤其适用于需要快速获取特定法律术语或条款的检索场景。
解决学术问题
该数据集有效解决了荷兰法律文本大规模检索中的索引构建难题,特别是在多语言混合(如法语标题样式)和旧版格式干扰下的检索准确性问题。其BM25索引结构为学术研究提供了可复现的基准,推动了法律文本的语义匹配与排序算法改进,强化了司法领域中结构化与非结构化数据融合的可行性。
衍生相关工作
该数据集衍生了一系列基于稀疏检索的法律文本分析工作,如结合BM25和深度学习的混合检索模型,以及针对荷兰法条历史版本的时效性追踪研究。此外,基于CID的索引设计启发了跨司法管辖区(如欧盟层面)的法律文档互操作性框架,推动了去中心化法律知识图谱的构建。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作