比利时法定文章检索数据集 (BSARD)

Name: 比利时法定文章检索数据集 (BSARD)
Creator: 马斯特里赫特大学法律与技术实验室
Published: 2022-03-15 19:56:24
License: 暂无描述

arXiv2022-03-15 更新2024-06-21 收录

下载链接：

https://github.com/maastrichtlawtech/bsard

下载链接

链接失效反馈

官方服务：

资源简介：

比利时法定文章检索数据集 (BSARD) 是由马斯特里赫特大学法律与技术实验室创建的一个大型法语原生数据集，旨在解决法律问题自动检索相关法律文章的任务。该数据集包含超过1100个由比利时公民提出的法律问题，每个问题都由法律专家标记了相关的法律文章，涉及约22,600篇比利时法律文章。BSARD的创建过程包括收集法律文章、收集法律问题、问题精炼和问题筛选等步骤。该数据集主要应用于法律信息检索领域，旨在帮助公众更有效地获取法律信息，解决法律问题。

The Belgian Statutory Article Retrieval Dataset (BSARD) is a large French-native dataset developed by the Maastricht University Law & Technology Laboratory, which is dedicated to the task of automatically retrieving relevant statutory articles for legal questions. This dataset contains over 1,100 legal questions submitted by Belgian citizens, each of which has been annotated with relevant statutory articles by legal experts, covering approximately 22,600 Belgian statutory articles. The development process of BSARD includes several steps: statutory article collection, legal question collection, question refinement and question screening. This dataset is primarily applied in the field of legal information retrieval, aiming to help the public obtain legal information more efficiently and resolve legal issues.

提供机构：

马斯特里赫特大学法律与技术实验室

创建时间：

2021-08-26

搜集汇总

数据集介绍

构建方式

在成文法体系中，法律检索是一项极具挑战的任务，因为普通公民的自然语言提问与复杂的法条表述之间存在显著的语义鸿沟。为填补这一空白，比利时法定文章检索数据集（BSARD）应运而生。其构建历经四个严谨阶段：首先，从32部比利时公开法典中收集了22,633条法条，并通过正则表达式清理了因法律修订产生的冗余标注与已废止条款；其次，与比利时公益组织Droits Quotidiens合作，获取了由六名资深法学家基于真实公民咨询邮件提炼的1,100余条法语原生法律问题，每条问题均附有专家标注的相关法条引用；随后，通过附加语境标签对重复问题进行了精细化重述；最后，利用正则解析技术将问题中的法条引用与语料库中的对应条目精确匹配，形成了包含886条训练样本与222条测试样本的高质量标注数据集。

特点

BSARD数据集在多个维度展现出独特价值。其语料库覆盖家庭、住房、金钱、司法等广泛法律主题，其中85%的问题集中于前四大领域，而法条长度中位数达495词，部分总则性条款甚至超过万词，体现了法律文本的复杂性与层级性。每道问题平均关联2条相关法条，但存在7%的问题需参考20条以上法条才能获得完整解答，凸显了法律推理的深度需求。此外，数据集仅1,612条法条被引用，且80%集中于民法典、司法法典等核心法典，揭示了公民法律诉求的集中性。与现有日语法律考试数据集相比，BSARD的法条规模扩大了近30倍，且全部采用法语原生表达，更贴近普通民众的实际法律咨询场景。

使用方法

BSARD为法律信息检索研究提供了标准化基准。研究人员可基于其训练集与测试集，评估从传统词法模型（如BM25）到现代稠密检索架构（如基于CamemBERT的双编码器）的性能表现。实验表明，经过微调的稠密检索模型在R@100指标上达到74.8%，显著优于零样本方法，但距法学专家的完美检索能力仍有提升空间。数据集以CC BY-NC-SA 4.0许可协议公开，禁止商业用途，旨在推动非营利性法律辅助工具的开发。使用时可从Hugging Face Datasets或Zenodo平台直接加载CSV格式数据，并配合官方GitHub仓库中的代码复现基准实验，为未来探索长法条处理与法律层级结构利用等方向奠定基础。

背景与挑战

背景概述

比利时法定文章检索数据集（BSARD）由马斯特里赫特大学法律与技术实验室的Antoine Louis与Gerasimos Spanakis于2021年创建，旨在填补法定文章检索领域大规模高质量标注数据的空白。该数据集聚焦于从比利时法律文书中检索与公民法律问题相关的法条，包含1100余条由资深法学家标注的法语原生问题，涵盖家庭、住房、金钱、司法等广泛主题，对应超过22600条比利时法典文章。BSARD的发布为法律信息检索研究提供了独特的基准，推动了自然语言处理技术在弥合公众与法律鸿沟方面的应用，其开放获取特性促进了相关领域的学术进步。

当前挑战

BSARD所解决的领域问题在于法定文章检索面临语言分布差异的挑战：公民问题采用日常自然语言，而法条则使用复杂法律术语，模型需隐式构建解释系统以弥合语义鸿沟。此外，法律文本具有层级结构，文章意义需结合上下文及所在法典领域综合理解，增加了检索的复杂性。在构建过程中，挑战包括从32部比利时法典中清洗逾2.2万条文章，去除废止条款及噪声；从超过3200条问题中筛选重复项，并通过上下文标签细化问题表述；同时需将法学家标注的引用与法典文章精确匹配，最终仅保留1108条高质量问答对，标注成本估算超过10万欧元。

常用场景

经典使用场景

在法律信息检索领域，比利时法定文章检索数据集（BSARD）的核心应用场景在于构建和评估能够自动从庞大法条语料库中检索出与用户自然语言法律问题相关法条的模型。该数据集涵盖了超过1100条由比利时公民提出的真实法律问题，并由资深法学家标注了来自22600余条比利时法条的相关性。这一设定使得BSARD成为衡量检索系统在弥合普通民众口语化表达与专业法律术语之间语义鸿沟能力的理想基准，尤其适用于研究跨语言风格的语义匹配技术。

实际应用

在实际应用中，基于BSARD训练的法条检索系统具有巨大的社会价值。它可以被集成到面向公众的在线法律咨询平台中，帮助那些无力支付高昂律师费用的弱势群体快速定位相关法律条文，从而降低获取法律信息与司法救济的门槛。此外，该系统还能辅助法律从业者进行高效的案头研究，将法学家从繁琐的初步检索工作中解放出来，使其能专注于更具深度的法律分析与推理，从而提升整个法律服务体系的工作效率与公平性。

衍生相关工作

BSARD的发布催生了一系列重要的衍生研究工作。最直接的工作是论文中建立的多层次基线模型，包括传统的TF-IDF、BM25以及基于word2vec、fastText和CamemBERT的零样本与微调稠密检索模型，为后续研究提供了清晰的性能参照。此外，该数据集还促进了针对超长法律文档的分块与编码策略研究，以及如何利用法律条文的层级结构（如法典-卷-章-节）来增强检索精度的探索，推动了法律信息检索领域从平面文本匹配向结构化语义理解的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集