maastrichtlawtech/bsard
收藏Hugging Face2024-05-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/maastrichtlawtech/bsard
下载链接
链接失效反馈官方服务:
资源简介:
比利时法规文章检索数据集(BSARD)是一个用于研究法律信息检索的法语原生数据集。BSARD包含来自比利时法律的22,600多条法规文章和约1,100个由比利时公民提出的法律问题,这些问题由经验丰富的法学家标注了相关文章。数据集的语言为法语,主要来自比利时瓦隆和布鲁塞尔首都大区。数据集可用于训练模型进行法律信息检索任务,模型需要根据用户提出的自然语言查询从知识源(如法规文章)中检索相关法律信息。
Belgian Statutory Article Retrieval Dataset (BSARD) is a French-native dataset for legal information retrieval research. BSARD contains over 22,600 statutory articles from Belgian law and approximately 1,100 legal questions raised by Belgian citizens, which are annotated with relevant articles by experienced jurists. The dataset is in French, mainly sourced from Wallonia and the Brussels-Capital Region of Belgium. This dataset can be used to train models for legal information retrieval tasks, where models need to retrieve relevant legal information from knowledge sources (such as statutory articles) based on natural language queries proposed by users.
提供机构:
maastrichtlawtech
原始信息汇总
数据集概述
数据集名称
- LLeQA
数据集属性
- 语言: 法语 (
fr) - 许可证: CC-BY-NC-SA-4.0
- 多语言性: 单语种
- 大小: 1K<n<10K
- 来源: 原始数据
- 任务类别: 文本检索, 文本分类
- 任务ID: 文档检索, 主题分类
- 标签: 法律
数据集结构
- 配置名称: corpus
- 数据文件:
- 分割: corpus
- 路径: articles.csv
- 数据文件:
- 配置名称: questions
- 数据文件:
- 分割: train
- 路径: questions_train.csv
- 分割: synthetic
- 路径: questions_synthetic.csv
- 分割: test
- 路径: questions_test.csv
- 数据文件:
- 配置名称: negatives
- 数据文件:
- 分割: bm25_train
- 路径: negatives/bm25_negatives_train.json
- 分割: bm25_synthetic
- 路径: negatives/bm25_negatives_synthetic.json
- 数据文件:
数据实例
-
组成: 问题,
category,subcategory,extra_description,article_ids -
示例:
{ id: 724, question: La police peut-elle me fouiller pour chercher du cannabis ?, category: Justice, subcategory: Petite délinquance, extra_description: Détenir, acheter et vendre du cannabis, article_ids: 13348 }
数据字段
- questions_fr_train.csv 和 questions_fr_test.csv:
id: int32question: stringcategory: stringsubcategory: stringextra_description: stringarticle_ids: string
- articles_fr.csv:
id: int32article: stringcode: stringarticle_no: stringdescription: stringlaw_type: string (either "regional" or "national")
数据分割
- BSARD:
- Train: 886
- Test: 222
搜集汇总
数据集介绍

构建方式
在法律信息检索领域,比利时法规条文检索数据集(BSARD)的构建体现了严谨的学术流程。该数据集通过四个关键阶段系统性地整合资源:首先,从32部比利时法典中汇编了超过22,600条法规条文,构建了结构化的法律语料库。随后,从比利时公民向法律咨询组织“Droits Quotidiens”提交的大量咨询邮件中,筛选并提炼出约1,100个具有代表性的法律问题。这些原始问题经由六位经验丰富的比利时法学家进行匿名化处理和语言重构,形成贴近民众日常表达的自然语言问句。最后,专家们为每个问题手动标注了语料库中相关的法规条文ID,确保了问答对的专业性与准确性,从而为法律检索研究提供了高质量的基准数据。
特点
BSARD数据集在法语法律自然语言处理领域展现出鲜明的特色。其核心在于提供了以比利时法语(fr-BE)书写的原生法律文本,涵盖了瓦隆区和布鲁塞尔首都区的法律语境,具有显著的地域法律文化代表性。数据集结构清晰,包含详尽的元数据:每个法律问题均标注了类别、子类别和额外描述,便于进行细粒度的主题分类研究;而每条法规条文则附有法典来源、条文编号、标题描述及法律类型(国家或区域)等信息。尤为重要的是,数据集中专家标注的问答对为监督式学习提供了可靠依据,同时其规模适中(训练集886问,测试集222问),兼顾了模型训练的可行性与评估的稳健性,为法律条文检索与分类任务设立了高标准。
使用方法
该数据集主要服务于法律信息检索与文本分类的研究与应用。使用者可通过加载指定的配置文件,分别访问法规语料库(articles.csv)、包含训练集与测试集的问题数据(questions_train.csv, questions_test.csv),以及为负采样提供的BM25检索负例文件。研究人员可基于此构建端到端的检索模型,其典型流程是:模型接收一个自然语言形式的法律问题作为查询,进而从庞大的法规语料库中检索出最相关的条文。数据集的标准划分支持对模型性能进行公平评估。此外,其清晰的结构化字段也支持将任务延伸至法律主题的多层次分类。在使用时需注意,数据基于2021年5月的法律版本,不应用于实际法律咨询,且部分问题可能因语料库覆盖不全而存在答案不完整的局限性。
背景与挑战
背景概述
比利时法定条款检索数据集(BSARD)由马斯特里赫特大学法律与科技实验室于2022年推出,旨在为法语法律信息检索研究提供高质量资源。该数据集汇集了超过22,600条比利时法律条文及约1,100个由比利时公民提出的法律问题,每个问题均由经验丰富的法学家标注了相关法律条文。其核心研究聚焦于如何通过自然语言查询精准定位法定条款,从而推动法律人工智能在跨语言与跨法系背景下的发展,对提升法律信息检索的自动化水平具有显著影响力。
当前挑战
该数据集致力于解决法律信息检索中自然语言查询与结构化法律条文匹配的挑战,其难点在于法律文本的严谨性与查询语言的随意性之间存在语义鸿沟。在构建过程中,面临的主要挑战包括法律条文的覆盖范围有限,仅收录了32部法典,导致部分问题无法获得完整的相关条文支持;同时,数据标注依赖于专家人工处理,成本高昂且难以扩展。此外,法律问题的解答往往不仅依赖成文法,还需结合判例法,这限制了数据集的适用范围。
常用场景
经典使用场景
在法律信息检索领域,比利时法条检索数据集(BSARD)为研究者提供了一个经典的评估平台,专门用于训练和测试模型在法语法律文本中的文档检索能力。该数据集包含超过22,600条比利时法条及约1,100个由专业法学家标注的相关法律问题,其核心应用场景在于模拟真实的法律咨询过程,即根据自然语言表述的公民法律问题,从庞大的法条库中精准定位相关法律条文。这种设置使得BSARD成为评估信息检索模型在专业领域性能的理想基准,尤其在处理复杂、正式的法律文本时,能够检验模型对语义理解和上下文关联的深度。
实际应用
在实际应用层面,BSARD为开发开源法律信息搜索工具提供了核心数据资源。基于该数据集训练的模型能够集成到法律研究平台或公共法律服务系统中,帮助律师、学者及普通公民快速检索相关法条,从而提升法律研究的效率。例如,在比利时法语区,此类工具可辅助公民理解自身法律权益,减少对专业法律咨询的依赖。此外,BSARD还可用于优化法律教育工具,为学生提供交互式的法条查询练习,增强其对法律体系的理解与应用能力。
衍生相关工作
围绕BSARD数据集,学术界已衍生出多项经典研究工作。例如,原论文中提出的基准模型为后续研究设立了性能标杆,激发了更多针对法律文本检索的深度学习方法探索。相关研究扩展了多语言法律检索的视野,促进了跨司法管辖区的比较分析。此外,基于BSARD的负采样策略和合成问题生成技术也为数据增强和模型鲁棒性改进提供了新思路,这些工作共同推动了法律人工智能领域向更精细化、实用化的方向发展。
以上内容由遇见数据集搜集并总结生成



