brunnolou/swiss-code-of-obligations
收藏Hugging Face2023-11-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/brunnolou/swiss-code-of-obligations
下载链接
链接失效反馈官方服务:
资源简介:
Swiss Code of Obligations数据集包含了瑞士义务法典和瑞士民法典的部分内容,数据来源于瑞士联邦法律的官方发布平台。数据集以JSONL格式存储,每个条目包含标题、文章、链接、内容和向量嵌入。数据集支持英语和德语,并提供了两种不同的向量嵌入模型(paraphrase-multilingual-mpnet-base-v2和gte-small)的嵌入结果。此外,README文件还详细介绍了如何使用Qdrant Vector Database进行数据集的设置和加载。
提供机构:
brunnolou
原始信息汇总
瑞士债务法典和瑞士民法典数据集
概述
- 许可证:Apache-2.0
- 语言:英语、德语
- 标签:法律
- 名称:Swiss Code of Obligations
- 数据规模:1K<n<10K
- 任务类别:问答
配置
- 配置名称:default
- 数据文件:
- 分割:civil_code_de_paraphrase_multilingual
- 路径:swiss-civil-code-de-paraphrase-multilingual-mpnet-base-v2.jsonl
- 分割:code_of_obligations_en_gte
- 路径:swiss-code-of-obligations-en-gte-small.jsonl
- 分割:code_of_obligations_en_paraphrase_multilingual
- 路径:swiss-code-of-obligations-en-paraphrase-multilingual-mpnet-base-v2.jsonl
- 分割:civil_code_de_paraphrase_multilingual
- 数据文件:
格式
- 类型定义: ts { headings: string[] article: string link: string content: string vector: number[] }
向量嵌入
- Xenova/paraphrase-multilingual-mpnet-base-v2:
- swiss-civil-code-de-paraphrase-multilingual-mpnet-base-v2.jsonl
- swiss-code-of-obligations-en-paraphrase-multilingual-mpnet-base-v2.jsonl
- Xenova/gte-small:
- swiss-code-of-obligations-en-gte-small.jsonl
原始HTML
- 路径:html
搜集汇总
数据集介绍

构建方式
该数据集源自瑞士联邦法律官方发布平台,聚焦于《瑞士债务法》及《瑞士民法典》第五部分,收录了自1911年3月30日颁布至2023年9月1日期间的法律条文。每条数据以JSON格式组织,包含标题层级、具体条款、官方链接、全文内容及对应的向量嵌入。向量嵌入通过两种先进的自然语言处理模型生成:其一为Xenova开发的paraphrase-multilingual-mpnet-base-v2,适用于多语言语义匹配;其二为Xenova的gte-small,提供轻量级嵌入表示。此外,数据集还提供了原始HTML文件,便于溯源与深度解析。
特点
该数据集的核心特色在于其双重向量化表示,分别基于paraphrase-multilingual-mpnet-base-v2(维度768)与gte-small(维度384)模型,覆盖德语与英语两种语言版本,显著增强了法律文本的语义检索与跨语言理解能力。数据集规模介于1千至1万条之间,专为问答任务设计,每条记录均保留了法律条文的层次化结构,使得复杂条款的语义关联得以精准捕捉。同时,数据集提供了与Qdrant向量数据库兼容的快照文件,支持高效的大规模相似性搜索。
使用方法
使用者可通过加载JSONL文件直接获取带有向量嵌入的法律条文,适用于构建基于检索增强生成(RAG)的法律问答系统。若需部署高性能向量搜索,可借助Qdrant数据库:首先在Qdrant控制台创建集合,根据所选嵌入模型指定向量维度(384或768)及余弦距离度量,随后下载对应快照文件,通过终端解压并使用curl命令上传至Qdrant服务,即可实现毫秒级的法律条文语义检索。
背景与挑战
背景概述
瑞士《债法典》与《瑞士民法典》第五部分(债法)自1911年颁布以来,历经多次修订,至2023年9月1日仍为瑞士联邦法律体系的核心支柱。该数据集由研究者brunnolou基于瑞士联邦法律官方发布平台(fedlex.admin.ch)构建,旨在将这部具有百年历史的经典法典转化为结构化、可检索的现代语料库。数据集不仅收录了法典各条款的原文、标题层级与链接,还通过Xenova/paraphrase-multilingual-mpnet-base-v2和Xenova/gte-small等先进嵌入模型生成向量表征,从而服务于跨语言法律问答、语义检索等下游任务。这一工作填补了瑞士法律领域高质量、多语言向量化数据集的空白,为法律科技研究提供了基础资源,尤其对多语言法律信息检索、法规自动问答系统的开发具有重要推动作用。
当前挑战
该数据集面临的核心挑战体现在两个维度。其一,法律文本的领域特殊性:瑞士《债法典》条款结构复杂,包含多级标题嵌套与交叉引用,且法律语言本身具有高度精确性和上下文依赖性,这对语义嵌入模型的细粒度理解能力提出严苛要求,单纯依赖通用多语言嵌入模型可能难以捕捉条款间的隐性逻辑关系。其二,构建过程中的技术挑战:数据集需同时处理德语和英语两种语言版本,并确保跨语言向量空间的对齐一致性;此外,从官方HTML页面中提取结构化数据时,需应对格式不统一、特殊法律符号(如§、Art.)的解析,以及不同修订版本间的版本控制问题。这些挑战共同决定了数据集在法律NLP任务中的实用性与泛化边界。
常用场景
经典使用场景
在自然语言处理与法律信息检索的交叉领域中,Swiss Code of Obligations数据集作为一部瑞士联邦法律的数字化语料库,其经典使用场景聚焦于法律条文的语义检索与多语言对齐。该数据集将《瑞士债法典》与《瑞士民法典》的英文、德文条款进行结构化处理,并嵌入由paraphrase-multilingual-mpnet-base-v2及gte-small等预训练模型生成的向量表征,使得研究者能够基于语义相似度而非关键词匹配来定位法律条款。这种语义级别的检索范式,为法律文本的智能问答系统提供了高质量的基准数据,尤其适用于跨语言法律咨询场景,例如用户以自然语言提问,系统可迅速返回最相关的德文或英文法律原文。
衍生相关工作
基于Swiss Code of Obligations数据集,已衍生出若干具有影响力的研究工作与工具链。一方面,该数据集被用于训练和评估面向法律领域的句子嵌入模型,例如研究者对比了paraphrase-multilingual-mpnet-base-v2与gte-small在不同法律检索任务上的表现,推动了法律专用嵌入模型的优化。另一方面,该数据集的向量化格式直接催生了与Qdrant等向量数据库的集成实践,形成了从数据预处理、向量索引到相似性搜索的完整流水线,为其他法律文本的数字化提供了可复用的参考架构。此外,该数据集还支持了跨语言法律问答系统的基准测试,促进了多语言法律NLP评测基准的建立。
数据集最近研究
最新研究方向
在法律人工智能领域,瑞士《债法典》与《民法典》的数字化表征正成为前沿研究焦点。该数据集通过将1911年颁布、2023年更新的法律条文转化为结构化向量嵌入,为语义检索与知识图谱构建提供了关键基础设施。结合paraphrase-multilingual-mpnet-base-v2与gte-small等先进嵌入模型,研究者得以在跨语言环境下实现法条的高效相似性匹配与问答系统开发。这一方向与全球法律科技浪潮紧密相连,尤其在瑞士多语言司法体系中,向量数据库的集成应用显著提升了法律信息检索的精准度与可扩展性,为智能法律助手、合同审查自动化等热点应用奠定了数据基础,推动了法律领域从传统文档管理向语义化、智能化转型的进程。
以上内容由遇见数据集搜集并总结生成



