open_codes

Hugging Face2026-02-14 更新2026-02-15 收录

下载链接：

https://huggingface.co/datasets/ArthurSrz/open_codes

下载链接

链接失效反馈

官方服务：

资源简介：

Open Codes 是一个包含法国法律条文及其嵌入向量的开源数据集。数据来源于法国政府官方法律数据库 Legifrance 的 PISTE API，通过 Mistral AI 生成 1024 维的嵌入向量。每条数据代表一个文本块，并附有来自父法律条文的完整元数据。数据集每日更新（UTC 时间 02:00 同步，06:00 推送），包含动态管理的有效法律代码。数据质量经过去重和过时块过滤处理。数据集适用于法律文本分析、语义搜索等任务。

创建时间：

2026-02-12

原始信息汇总

Open Codes 数据集概述

数据集基本信息

名称: Open Codes
描述: 包含嵌入向量的法国法律条文分块数据集
语言: 法语
标签: 法律、法国法律、嵌入向量、Legifrance、Mistral
数据规模: 10K < n < 100K
许可证: Licence Ouverte / Etalab 2.0 (https://www.etalab.gouv.fr/licence-ouverte-open-licence/)
更新频率: 每日更新（UTC时间02:00进行夜间同步，UTC时间06:00推送数据集）

数据来源与处理

来源: PISTE Legifrance API (https://piste.gouv.fr/)，法国政府官方法律数据库
内容: 通过PISTE API从Legifrance (https://www.legifrance.gouv.fr/)获取的法国法律条文分块
嵌入向量: 使用Mistral AI的mistral-embed模型生成，维度为1024
代码范围: 动态来源于LEX_codes_piste表（仅包含有效代码）
质量控制: 每次推送前应用去重和过时分块过滤

数据结构

分块字段

字段名	类型	描述
`chunk_text`	string	分块的文本内容
`embedding`	float32[1024]	Mistral AI嵌入向量
`id_legifrance`	string	Legifrance文章标识符
`code_name`	string	人类可读的代码名称（如"Code civil"）
`chunk_index`	int32	文章内的分块位置（0起始索引）
`start_position`	int32	原始文章文本中的字符起始偏移量
`end_position`	int32	原始文章文本中的字符结束偏移量
`code`	string	法律代码标识符（如LEGITEXT000006070721）
`num`	string	文章编号（如"L. 1234-5"）
`etat`	string	文章状态（VIGUEUR, ABROGE等）
`fullSectionsTitre`	string	代码中的完整层次结构路径

文章元数据字段（以`article_`为前缀）

标识符

article_id_legifrance: Legifrance文章ID
article_code: 法律代码ID
article_num: 文章编号
article_cid: 合并ID
article_idEli: ELI（欧洲立法标识符）
article_idEliAlias: ELI别名
article_idTexte: 文本ID
article_cidTexte: 合并文本ID

内容

article_texte: 完整文章纯文本
article_texteHtml: 完整文章HTML
article_nota: 文章注释（纯文本）
article_notaHtml: 文章注释（HTML）
article_surtitre: 文章副标题
article_historique: 文章历史

日期与状态

article_dateDebut: 生效开始日期（Unix毫秒时间戳）
article_dateFin: 生效结束日期（Unix毫秒时间戳，32472144000000表示无限期）
article_dateDebutExtension: 扩展开始日期（Unix毫秒时间戳）
article_dateFinExtension: 扩展结束日期（Unix毫秒时间戳）
article_etat: 状态：VIGUEUR（生效中）、ABROGE（已废止）等
article_type_article: 文章类型
article_nature: 法律性质
article_origine: 来源（如LEGI）
article_version_article: 版本标识符
article_versionPrecedente: 先前版本ID
article_multipleVersions: 是否有多版本

层次结构

article_sectionParentId: 父章节ID
article_sectionParentCid: 父章节合并ID
article_sectionParentTitre: 父章节标题
article_fullSectionsTitre: 完整层次结构路径
article_ordre: 代码内的排序顺序
article_partie: 部分（如"Partie legislative"）
article_livre: 书籍
article_titre: 标题
article_chapitre: 章节
article_section: 节
article_sous_section: 小节
article_paragraphe: 段落

额外信息

article_infosComplementaires: 补充信息（纯文本）
article_infosComplementairesHtml: 补充信息（HTML）
article_conditionDiffere: 延迟条件
article_infosRestructurationBranche: 分支重构信息
article_infosRestructurationBrancheHtml: 分支重构信息（HTML）
article_renvoi: 交叉引用
article_comporteLiensSP: 是否包含SP链接
article_idTechInjection: 技术注入ID
article_refInjection: 注入引用
article_numeroBo: BO编号
article_inap: INAP代码

使用示例

python from datasets import load_dataset from datetime import datetime, timezone

ds = load_dataset("ArthurSrz/open_codes", split="train")

访问分块及其嵌入向量和文章元数据

row = ds[0] print(row["code_name"]) # 例如："Code civil" print(row["chunk_text"][:200]) print(len(row["embedding"])) # 1024

将Unix毫秒时间戳转换为日期时间

date_debut = datetime.fromtimestamp(int(row["article_dateDebut"]) / 1000, tz=timezone.utc)

按法律代码筛选

code_civil = ds.filter(lambda x: x["code_name"] == "Code civil")

仅筛选生效文章

en_vigueur = ds.filter(lambda x: x["article_etat"] == "VIGUEUR")

数据来源

由marIAnne项目 (https://github.com/ArthurSrz/open_codes) 构建。同步管道每晚从PISTE Legifrance获取文章，进行分块处理，并通过Mistral AI生成嵌入向量。

搜集汇总

数据集介绍

构建方式

在法国法律信息数字化进程中，Open Codes数据集通过官方PISTE Legifrance API动态获取现行法律条文，确保了数据来源的权威性与时效性。其构建流程采用自动化同步机制，每日夜间从API提取活跃法律条文，并运用文本分块技术将条文切分为语义连贯的片段。每个文本块均通过Mistral AI的嵌入模型生成1024维向量表示，同时整合了条文的完整元数据，包括法律状态、生效日期及层级结构等信息。在数据发布前，系统会执行去重与陈旧块过滤，以保障数据集的质量与一致性。

使用方法

用户可通过Hugging Face的datasets库直接加载数据集，并利用其丰富的元数据进行灵活筛选，例如按法律名称或条文状态过滤。嵌入向量可用于语义搜索任务，通过计算向量相似度实现法律条文的智能检索与推荐。数据集中的时间戳字段以毫秒级Unix格式存储，需通过标准时间转换方法解析为可读日期。结合Python生态中的数值计算库，用户可进一步实施聚类、分类或可视化分析，探索法律条文间的语义关联与演化规律。该数据集为法律信息检索、智能问答及法规合规检查等应用提供了高质量的基础资源。

背景与挑战

背景概述

在数字化法律信息检索与智能分析领域，法国法律文本的复杂性与动态性构成了独特的研究场景。Open Codes数据集由ArthurSrz团队基于marIAnne项目构建，依托法国官方法律数据库Legifrance的PISTE API，系统性地收录了现行有效的法国法典条文。该数据集通过Mistral AI的嵌入模型生成高维向量表示，不仅提供了法律条文的文本内容，还整合了完整的元数据信息，如条文状态、生效日期及层级结构。其每日同步更新的机制确保了数据的时效性，为法律自然语言处理、语义检索及知识图谱构建等任务提供了结构化基础。

当前挑战

该数据集旨在应对法律文本语义理解与高效检索的核心挑战，包括处理法律术语的多义性、条文间的复杂引用关系以及法律状态的动态演变。在构建过程中，团队需克服数据源的异构性，确保从Legifrance API提取的条文信息在分块处理时保持语义完整性，并解决时间戳格式转换、重复数据过滤及无效片段剔除等技术难题。此外，嵌入模型对法律领域专业知识的适配性、以及跨法典条文的向量空间一致性，亦是实现精准语义分析的关键障碍。

常用场景

经典使用场景

在法律信息检索与智能分析领域，Open Codes数据集为研究者提供了结构化且富含语义的法国法律条文资源。该数据集通过Mistral AI生成的嵌入向量，使得法律条文能够以高维向量形式表示，从而支持基于语义相似度的检索任务。经典使用场景包括构建法律问答系统，用户可通过自然语言查询直接定位相关法律条款；同时，该数据集也常用于法律文本的聚类与分类研究，帮助识别不同法律领域或条文间的关联性。

解决学术问题

Open Codes数据集有效解决了法律自然语言处理中的若干核心学术问题。首先，它通过提供带有高质量嵌入向量的法律文本，促进了法律语义表示学习的研究，使得模型能够更好地理解法律术语的复杂含义。其次，数据集的结构化元数据（如条文状态、生效日期等）支持法律条文时效性与版本演变分析，为法律动态性研究提供了数据基础。此外，该数据集还助力于跨语言法律信息检索的探索，推动法律人工智能的普适性发展。

实际应用

在实际应用层面，Open Codes数据集被广泛集成于法律科技产品与服务中。例如，律师事务所可利用该数据集构建内部法律知识库，实现快速条文检索与案例辅助分析；政府部门则能基于此开发智能法规审查工具，自动检测新政策与现有法律体系的冲突。同时，教育机构可借助数据集开发法律教学辅助系统，帮助学生直观理解法律条文的结构与内容。这些应用显著提升了法律工作的效率与准确性。

数据集最近研究