open_codes
收藏Hugging Face2026-02-14 更新2026-02-15 收录
下载链接:
https://huggingface.co/datasets/ArthurSrz/open_codes
下载链接
链接失效反馈官方服务:
资源简介:
Open Codes 是一个包含法国法律条文及其嵌入向量的开源数据集。数据来源于法国政府官方法律数据库 Legifrance 的 PISTE API,通过 Mistral AI 生成 1024 维的嵌入向量。每条数据代表一个文本块,并附有来自父法律条文的完整元数据。数据集每日更新(UTC 时间 02:00 同步,06:00 推送),包含动态管理的有效法律代码。数据质量经过去重和过时块过滤处理。数据集适用于法律文本分析、语义搜索等任务。
创建时间:
2026-02-12
原始信息汇总
Open Codes 数据集概述
数据集基本信息
- 名称: Open Codes
- 描述: 包含嵌入向量的法国法律条文分块数据集
- 语言: 法语
- 标签: 法律、法国法律、嵌入向量、Legifrance、Mistral
- 数据规模: 10K < n < 100K
- 许可证: Licence Ouverte / Etalab 2.0 (https://www.etalab.gouv.fr/licence-ouverte-open-licence/)
- 更新频率: 每日更新(UTC时间02:00进行夜间同步,UTC时间06:00推送数据集)
数据来源与处理
- 来源: PISTE Legifrance API (https://piste.gouv.fr/),法国政府官方法律数据库
- 内容: 通过PISTE API从Legifrance (https://www.legifrance.gouv.fr/)获取的法国法律条文分块
- 嵌入向量: 使用Mistral AI的
mistral-embed模型生成,维度为1024 - 代码范围: 动态来源于
LEX_codes_piste表(仅包含有效代码) - 质量控制: 每次推送前应用去重和过时分块过滤
数据结构
分块字段
| 字段名 | 类型 | 描述 |
|---|---|---|
chunk_text |
string | 分块的文本内容 |
embedding |
float32[1024] | Mistral AI嵌入向量 |
id_legifrance |
string | Legifrance文章标识符 |
code_name |
string | 人类可读的代码名称(如"Code civil") |
chunk_index |
int32 | 文章内的分块位置(0起始索引) |
start_position |
int32 | 原始文章文本中的字符起始偏移量 |
end_position |
int32 | 原始文章文本中的字符结束偏移量 |
code |
string | 法律代码标识符(如LEGITEXT000006070721) |
num |
string | 文章编号(如"L. 1234-5") |
etat |
string | 文章状态(VIGUEUR, ABROGE等) |
fullSectionsTitre |
string | 代码中的完整层次结构路径 |
文章元数据字段(以article_为前缀)
标识符
article_id_legifrance: Legifrance文章IDarticle_code: 法律代码IDarticle_num: 文章编号article_cid: 合并IDarticle_idEli: ELI(欧洲立法标识符)article_idEliAlias: ELI别名article_idTexte: 文本IDarticle_cidTexte: 合并文本ID
内容
article_texte: 完整文章纯文本article_texteHtml: 完整文章HTMLarticle_nota: 文章注释(纯文本)article_notaHtml: 文章注释(HTML)article_surtitre: 文章副标题article_historique: 文章历史
日期与状态
article_dateDebut: 生效开始日期(Unix毫秒时间戳)article_dateFin: 生效结束日期(Unix毫秒时间戳,32472144000000表示无限期)article_dateDebutExtension: 扩展开始日期(Unix毫秒时间戳)article_dateFinExtension: 扩展结束日期(Unix毫秒时间戳)article_etat: 状态:VIGUEUR(生效中)、ABROGE(已废止)等article_type_article: 文章类型article_nature: 法律性质article_origine: 来源(如LEGI)article_version_article: 版本标识符article_versionPrecedente: 先前版本IDarticle_multipleVersions: 是否有多版本
层次结构
article_sectionParentId: 父章节IDarticle_sectionParentCid: 父章节合并IDarticle_sectionParentTitre: 父章节标题article_fullSectionsTitre: 完整层次结构路径article_ordre: 代码内的排序顺序article_partie: 部分(如"Partie legislative")article_livre: 书籍article_titre: 标题article_chapitre: 章节article_section: 节article_sous_section: 小节article_paragraphe: 段落
额外信息
article_infosComplementaires: 补充信息(纯文本)article_infosComplementairesHtml: 补充信息(HTML)article_conditionDiffere: 延迟条件article_infosRestructurationBranche: 分支重构信息article_infosRestructurationBrancheHtml: 分支重构信息(HTML)article_renvoi: 交叉引用article_comporteLiensSP: 是否包含SP链接article_idTechInjection: 技术注入IDarticle_refInjection: 注入引用article_numeroBo: BO编号article_inap: INAP代码
使用示例
python from datasets import load_dataset from datetime import datetime, timezone
ds = load_dataset("ArthurSrz/open_codes", split="train")
访问分块及其嵌入向量和文章元数据
row = ds[0] print(row["code_name"]) # 例如:"Code civil" print(row["chunk_text"][:200]) print(len(row["embedding"])) # 1024
将Unix毫秒时间戳转换为日期时间
date_debut = datetime.fromtimestamp(int(row["article_dateDebut"]) / 1000, tz=timezone.utc)
按法律代码筛选
code_civil = ds.filter(lambda x: x["code_name"] == "Code civil")
仅筛选生效文章
en_vigueur = ds.filter(lambda x: x["article_etat"] == "VIGUEUR")
数据来源
由marIAnne项目 (https://github.com/ArthurSrz/open_codes) 构建。同步管道每晚从PISTE Legifrance获取文章,进行分块处理,并通过Mistral AI生成嵌入向量。
搜集汇总
数据集介绍

构建方式
在法国法律信息数字化进程中,Open Codes数据集通过官方PISTE Legifrance API动态获取现行法律条文,确保了数据来源的权威性与时效性。其构建流程采用自动化同步机制,每日夜间从API提取活跃法律条文,并运用文本分块技术将条文切分为语义连贯的片段。每个文本块均通过Mistral AI的嵌入模型生成1024维向量表示,同时整合了条文的完整元数据,包括法律状态、生效日期及层级结构等信息。在数据发布前,系统会执行去重与陈旧块过滤,以保障数据集的质量与一致性。
使用方法
用户可通过Hugging Face的datasets库直接加载数据集,并利用其丰富的元数据进行灵活筛选,例如按法律名称或条文状态过滤。嵌入向量可用于语义搜索任务,通过计算向量相似度实现法律条文的智能检索与推荐。数据集中的时间戳字段以毫秒级Unix格式存储,需通过标准时间转换方法解析为可读日期。结合Python生态中的数值计算库,用户可进一步实施聚类、分类或可视化分析,探索法律条文间的语义关联与演化规律。该数据集为法律信息检索、智能问答及法规合规检查等应用提供了高质量的基础资源。
背景与挑战
背景概述
在数字化法律信息检索与智能分析领域,法国法律文本的复杂性与动态性构成了独特的研究场景。Open Codes数据集由ArthurSrz团队基于marIAnne项目构建,依托法国官方法律数据库Legifrance的PISTE API,系统性地收录了现行有效的法国法典条文。该数据集通过Mistral AI的嵌入模型生成高维向量表示,不仅提供了法律条文的文本内容,还整合了完整的元数据信息,如条文状态、生效日期及层级结构。其每日同步更新的机制确保了数据的时效性,为法律自然语言处理、语义检索及知识图谱构建等任务提供了结构化基础。
当前挑战
该数据集旨在应对法律文本语义理解与高效检索的核心挑战,包括处理法律术语的多义性、条文间的复杂引用关系以及法律状态的动态演变。在构建过程中,团队需克服数据源的异构性,确保从Legifrance API提取的条文信息在分块处理时保持语义完整性,并解决时间戳格式转换、重复数据过滤及无效片段剔除等技术难题。此外,嵌入模型对法律领域专业知识的适配性、以及跨法典条文的向量空间一致性,亦是实现精准语义分析的关键障碍。
常用场景
经典使用场景
在法律信息检索与智能分析领域,Open Codes数据集为研究者提供了结构化且富含语义的法国法律条文资源。该数据集通过Mistral AI生成的嵌入向量,使得法律条文能够以高维向量形式表示,从而支持基于语义相似度的检索任务。经典使用场景包括构建法律问答系统,用户可通过自然语言查询直接定位相关法律条款;同时,该数据集也常用于法律文本的聚类与分类研究,帮助识别不同法律领域或条文间的关联性。
解决学术问题
Open Codes数据集有效解决了法律自然语言处理中的若干核心学术问题。首先,它通过提供带有高质量嵌入向量的法律文本,促进了法律语义表示学习的研究,使得模型能够更好地理解法律术语的复杂含义。其次,数据集的结构化元数据(如条文状态、生效日期等)支持法律条文时效性与版本演变分析,为法律动态性研究提供了数据基础。此外,该数据集还助力于跨语言法律信息检索的探索,推动法律人工智能的普适性发展。
实际应用
在实际应用层面,Open Codes数据集被广泛集成于法律科技产品与服务中。例如,律师事务所可利用该数据集构建内部法律知识库,实现快速条文检索与案例辅助分析;政府部门则能基于此开发智能法规审查工具,自动检测新政策与现有法律体系的冲突。同时,教育机构可借助数据集开发法律教学辅助系统,帮助学生直观理解法律条文的结构与内容。这些应用显著提升了法律工作的效率与准确性。
数据集最近研究
最新研究方向
在法国法律智能化的浪潮中,Open Codes数据集凭借其官方来源的法国法典条文与Mistral AI生成的嵌入向量,正推动法律自然语言处理的前沿探索。当前研究聚焦于利用其高维向量表示,开发精准的法律语义检索系统,以应对法律条文复杂性与动态更新的挑战。同时,该数据集支持跨条文关联分析与法律知识图谱的构建,为自动化法律咨询、合规性检查及司法决策辅助提供结构化基础。其每日同步机制确保了数据的时效性,使得研究能够紧跟法律修订的实际进程,在数字法治与人工智能交叉领域具有显著的实践意义。
以上内容由遇见数据集搜集并总结生成



