brunnolou/swiss-code-of-obligations

Name: brunnolou/swiss-code-of-obligations
Creator: brunnolou
Published: 2023-11-09 18:37:10
License: 暂无描述

Hugging Face2023-11-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/brunnolou/swiss-code-of-obligations

下载链接

链接失效反馈

官方服务：

资源简介：

Swiss Code of Obligations数据集包含了瑞士义务法典和瑞士民法典的部分内容，数据来源于瑞士联邦法律的官方发布平台。数据集以JSONL格式存储，每个条目包含标题、文章、链接、内容和向量嵌入。数据集支持英语和德语，并提供了两种不同的向量嵌入模型（paraphrase-multilingual-mpnet-base-v2和gte-small）的嵌入结果。此外，README文件还详细介绍了如何使用Qdrant Vector Database进行数据集的设置和加载。

提供机构：

brunnolou

原始信息汇总

瑞士债务法典和瑞士民法典数据集

概述

许可证：Apache-2.0
语言：英语、德语
标签：法律
名称：Swiss Code of Obligations
数据规模：1K<n<10K
任务类别：问答

配置

配置名称：default
- 数据文件：
  - 分割：civil_code_de_paraphrase_multilingual
    - 路径：swiss-civil-code-de-paraphrase-multilingual-mpnet-base-v2.jsonl
  - 分割：code_of_obligations_en_gte
    - 路径：swiss-code-of-obligations-en-gte-small.jsonl
  - 分割：code_of_obligations_en_paraphrase_multilingual
    - 路径：swiss-code-of-obligations-en-paraphrase-multilingual-mpnet-base-v2.jsonl

格式

类型定义： ts { headings: string[] article: string link: string content: string vector: number[] }

向量嵌入

Xenova/paraphrase-multilingual-mpnet-base-v2：
- swiss-civil-code-de-paraphrase-multilingual-mpnet-base-v2.jsonl
- swiss-code-of-obligations-en-paraphrase-multilingual-mpnet-base-v2.jsonl
Xenova/gte-small：
- swiss-code-of-obligations-en-gte-small.jsonl

原始HTML

路径：html

搜集汇总

数据集介绍

构建方式

该数据集源自瑞士联邦法律官方发布平台，聚焦于《瑞士债务法》及《瑞士民法典》第五部分，收录了自1911年3月30日颁布至2023年9月1日期间的法律条文。每条数据以JSON格式组织，包含标题层级、具体条款、官方链接、全文内容及对应的向量嵌入。向量嵌入通过两种先进的自然语言处理模型生成：其一为Xenova开发的paraphrase-multilingual-mpnet-base-v2，适用于多语言语义匹配；其二为Xenova的gte-small，提供轻量级嵌入表示。此外，数据集还提供了原始HTML文件，便于溯源与深度解析。

特点

该数据集的核心特色在于其双重向量化表示，分别基于paraphrase-multilingual-mpnet-base-v2（维度768）与gte-small（维度384）模型，覆盖德语与英语两种语言版本，显著增强了法律文本的语义检索与跨语言理解能力。数据集规模介于1千至1万条之间，专为问答任务设计，每条记录均保留了法律条文的层次化结构，使得复杂条款的语义关联得以精准捕捉。同时，数据集提供了与Qdrant向量数据库兼容的快照文件，支持高效的大规模相似性搜索。

使用方法

使用者可通过加载JSONL文件直接获取带有向量嵌入的法律条文，适用于构建基于检索增强生成（RAG）的法律问答系统。若需部署高性能向量搜索，可借助Qdrant数据库：首先在Qdrant控制台创建集合，根据所选嵌入模型指定向量维度（384或768）及余弦距离度量，随后下载对应快照文件，通过终端解压并使用curl命令上传至Qdrant服务，即可实现毫秒级的法律条文语义检索。

背景与挑战

背景概述

瑞士《债法典》与《瑞士民法典》第五部分（债法）自1911年颁布以来，历经多次修订，至2023年9月1日仍为瑞士联邦法律体系的核心支柱。该数据集由研究者brunnolou基于瑞士联邦法律官方发布平台（fedlex.admin.ch）构建，旨在将这部具有百年历史的经典法典转化为结构化、可检索的现代语料库。数据集不仅收录了法典各条款的原文、标题层级与链接，还通过Xenova/paraphrase-multilingual-mpnet-base-v2和Xenova/gte-small等先进嵌入模型生成向量表征，从而服务于跨语言法律问答、语义检索等下游任务。这一工作填补了瑞士法律领域高质量、多语言向量化数据集的空白，为法律科技研究提供了基础资源，尤其对多语言法律信息检索、法规自动问答系统的开发具有重要推动作用。

当前挑战

该数据集面临的核心挑战体现在两个维度。其一，法律文本的领域特殊性：瑞士《债法典》条款结构复杂，包含多级标题嵌套与交叉引用，且法律语言本身具有高度精确性和上下文依赖性，这对语义嵌入模型的细粒度理解能力提出严苛要求，单纯依赖通用多语言嵌入模型可能难以捕捉条款间的隐性逻辑关系。其二，构建过程中的技术挑战：数据集需同时处理德语和英语两种语言版本，并确保跨语言向量空间的对齐一致性；此外，从官方HTML页面中提取结构化数据时，需应对格式不统一、特殊法律符号（如§、Art.）的解析，以及不同修订版本间的版本控制问题。这些挑战共同决定了数据集在法律NLP任务中的实用性与泛化边界。

常用场景

经典使用场景

在自然语言处理与法律信息检索的交叉领域中，Swiss Code of Obligations数据集作为一部瑞士联邦法律的数字化语料库，其经典使用场景聚焦于法律条文的语义检索与多语言对齐。该数据集将《瑞士债法典》与《瑞士民法典》的英文、德文条款进行结构化处理，并嵌入由paraphrase-multilingual-mpnet-base-v2及gte-small等预训练模型生成的向量表征，使得研究者能够基于语义相似度而非关键词匹配来定位法律条款。这种语义级别的检索范式，为法律文本的智能问答系统提供了高质量的基准数据，尤其适用于跨语言法律咨询场景，例如用户以自然语言提问，系统可迅速返回最相关的德文或英文法律原文。

衍生相关工作

基于Swiss Code of Obligations数据集，已衍生出若干具有影响力的研究工作与工具链。一方面，该数据集被用于训练和评估面向法律领域的句子嵌入模型，例如研究者对比了paraphrase-multilingual-mpnet-base-v2与gte-small在不同法律检索任务上的表现，推动了法律专用嵌入模型的优化。另一方面，该数据集的向量化格式直接催生了与Qdrant等向量数据库的集成实践，形成了从数据预处理、向量索引到相似性搜索的完整流水线，为其他法律文本的数字化提供了可复用的参考架构。此外，该数据集还支持了跨语言法律问答系统的基准测试，促进了多语言法律NLP评测基准的建立。

数据集最近研究