fedlex

Hugging Face2025-08-29 更新2025-08-30 收录

下载链接：

https://huggingface.co/datasets/liechticonsulting/fedlex

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含最新的法语法律信息。数据集通过SPARQL查询从'fedlex.data.admin.ch'数据源获取，并且只包含当前适用且以法语提供的法律。数据集以CSV格式存储，其中包含法律的编号、标题、缩写、适用日期和嵌入的XML内容。数据集的生成过程涉及到使用Python脚本下载XML文件，并使用线程池来并行处理这些文件，以提高效率。

This dataset contains up-to-date French legal information. It is obtained via SPARQL queries from the data source "fedlex.data.admin.ch", and only includes laws that are currently in force and available in French. The dataset is stored in CSV format, and contains the legal document number, title, abbreviation, effective date, and embedded XML content. The dataset generation process involves using Python scripts to download XML files, and utilizing thread pools for parallel processing of these files to improve efficiency.

创建时间：

2025-08-28

原始信息汇总

Fedlex 数据集概述

数据集基本信息

许可证: Apache 2.0
数据格式: CSV
主要文件: fedlex_dataset.csv

数据来源

原始数据源: 瑞士联邦法律数据库 (Fedlex)
数据获取方式: 通过SPARQL查询接口从官方端点获取
官方数据地址: https://fedlex.data.admin.ch/en-CH/sparql?id=100

数据内容

语言: 法语 (FR)
内容类型: 瑞士现行法律条文
数据字段:
- RS_number: 系统编号
- Title: 法律标题
- Abbreviation: 法律缩写
- Language: 语言代码
- DateApplicability: 适用日期
- XML: 完整的XML法律文本内容

数据处理

数据采集: 使用Python脚本通过curl命令执行SPARQL查询
并行下载: 采用8线程并行下载XML文件
数据清洗: 移除XML文本中的换行符以确保CSV格式有效性

应用示例

法律条文查看器: 提供基于Flask的Web服务，支持按法律缩写或具体条文编号查询
条文提取功能: 支持"art. 19 CO"格式的条文精确查找
XML解析: 使用lxml库处理法律文档的XML格式内容

技术实现

查询语言: SPARQL
数据处理: Python (requests, pandas, lxml, flask)
并发处理: concurrent.futures线程池
进度显示: tqdm进度条

搜集汇总

数据集介绍

构建方式

FedLex数据集的构建依托于瑞士联邦法律信息系统的SPARQL端点，通过精心设计的查询语句筛选出当前生效的法语法律条文。利用多线程并行处理技术高效下载XML格式的法律文本，并对数据进行清洗与标准化处理，确保每条记录包含法律编号、标题、缩写、适用日期及完整XML内容，最终整合为结构化的CSV数据集。

特点

该数据集全面覆盖瑞士现行有效的法语法律法规，每条记录均附带机器可读的XML格式原始文本，支持精确的法条定位与内容提取。其独特价值在于提供法律条文的标准化电子标识符（eId），并保持与官方数据的实时同步，为 computational law 研究提供高质量的多语言法律语料库。

使用方法

研究人员可通过SPARQL查询接口获取最新法律数据，或直接使用预构建的CSV文件进行批量分析。数据集配套的Flask演示系统展示了基于法律缩写和条款编号的精确检索功能，用户可通过类似“art. 19 CO”的语法快速定位特定条款，为法律信息化研究和智能司法系统开发提供技术支撑。

背景与挑战

背景概述

Fedlex数据集由瑞士联邦政府于2020年创建，作为国家法律信息开放数据计划的核心组成部分。该数据集整合了瑞士联邦立法系统的多语言法律文本，采用先进的语义网技术和SPARQL端点实现高效检索。其构建体现了政府数据透明化与数字治理的创新理念，为法律信息化研究、自然语言处理及智能司法系统开发提供了权威数据支撑，显著推动了欧洲法律科技领域的发展。

当前挑战

该数据集面临法律文本多语言对齐的复杂性挑战，需确保法语、德语、意大利语和罗曼什语版本间语义一致性。在技术层面，XML文档结构解析需处理Akoma Ntoso法律文档标准的命名空间复杂性，且大规模法律条文的时间效力验证需要动态更新机制。数据构建过程中还需克服政府数据跨部门整合的行政壁垒，以及保证法律修订历史版本溯源的完整性。

常用场景

经典使用场景

在法学信息检索领域，Fedlex数据集为研究人员提供了瑞士联邦法律的标准化文本语料。该数据集通过SPARQL端点集成多语言法律条文，支持对法律条文结构化和语义化分析，为计算法学研究奠定数据基础。学者们可利用其XML格式的标准化标记，系统研究法律条文间的引用关系和效力演变。

解决学术问题

Fedlex数据集有效解决了法律文本数字化过程中的标准化缺失问题，为法律信息检索系统提供了高质量的训练语料。其结构化存储方式支持法律条文的多维度分析，包括时效性验证、跨条文关联分析等，显著提升了法律研究的精确度和效率。该数据集为法律自然语言处理任务提供了可靠的基准数据。

衍生相关工作

基于Fedlex数据集，研究者开发了多种法律文本处理模型，包括法律条文自动分类系统和法律概念抽取工具。该数据集促进了法律知识图谱构建技术的发展，衍生出多个法律智能问答系统。相关研究还推动了法律文本多语言对齐技术的进步，为跨国法律比较研究提供了技术支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集