five

open_codes

收藏
Hugging Face2026-02-14 更新2026-02-15 收录
下载链接:
https://huggingface.co/datasets/ArthurSrz/open_codes
下载链接
链接失效反馈
官方服务:
资源简介:
Open Codes 是一个包含法国法律条文及其嵌入向量的开源数据集。数据来源于法国政府官方法律数据库 Legifrance 的 PISTE API,通过 Mistral AI 生成 1024 维的嵌入向量。每条数据代表一个文本块,并附有来自父法律条文的完整元数据。数据集每日更新(UTC 时间 02:00 同步,06:00 推送),包含动态管理的有效法律代码。数据质量经过去重和过时块过滤处理。数据集适用于法律文本分析、语义搜索等任务。
创建时间:
2026-02-12
原始信息汇总

Open Codes 数据集概述

数据集基本信息

  • 名称: Open Codes
  • 描述: 包含嵌入向量的法国法律条文分块数据集
  • 语言: 法语
  • 标签: 法律、法国法律、嵌入向量、Legifrance、Mistral
  • 数据规模: 10K < n < 100K
  • 许可证: Licence Ouverte / Etalab 2.0 (https://www.etalab.gouv.fr/licence-ouverte-open-licence/)
  • 更新频率: 每日更新(UTC时间02:00进行夜间同步,UTC时间06:00推送数据集)

数据来源与处理

  • 来源: PISTE Legifrance API (https://piste.gouv.fr/),法国政府官方法律数据库
  • 内容: 通过PISTE API从Legifrance (https://www.legifrance.gouv.fr/)获取的法国法律条文分块
  • 嵌入向量: 使用Mistral AI的mistral-embed模型生成,维度为1024
  • 代码范围: 动态来源于LEX_codes_piste表(仅包含有效代码)
  • 质量控制: 每次推送前应用去重和过时分块过滤

数据结构

分块字段

字段名 类型 描述
chunk_text string 分块的文本内容
embedding float32[1024] Mistral AI嵌入向量
id_legifrance string Legifrance文章标识符
code_name string 人类可读的代码名称(如"Code civil")
chunk_index int32 文章内的分块位置(0起始索引)
start_position int32 原始文章文本中的字符起始偏移量
end_position int32 原始文章文本中的字符结束偏移量
code string 法律代码标识符(如LEGITEXT000006070721)
num string 文章编号(如"L. 1234-5")
etat string 文章状态(VIGUEUR, ABROGE等)
fullSectionsTitre string 代码中的完整层次结构路径

文章元数据字段(以article_为前缀)

标识符

  • article_id_legifrance: Legifrance文章ID
  • article_code: 法律代码ID
  • article_num: 文章编号
  • article_cid: 合并ID
  • article_idEli: ELI(欧洲立法标识符)
  • article_idEliAlias: ELI别名
  • article_idTexte: 文本ID
  • article_cidTexte: 合并文本ID

内容

  • article_texte: 完整文章纯文本
  • article_texteHtml: 完整文章HTML
  • article_nota: 文章注释(纯文本)
  • article_notaHtml: 文章注释(HTML)
  • article_surtitre: 文章副标题
  • article_historique: 文章历史

日期与状态

  • article_dateDebut: 生效开始日期(Unix毫秒时间戳)
  • article_dateFin: 生效结束日期(Unix毫秒时间戳,32472144000000表示无限期)
  • article_dateDebutExtension: 扩展开始日期(Unix毫秒时间戳)
  • article_dateFinExtension: 扩展结束日期(Unix毫秒时间戳)
  • article_etat: 状态:VIGUEUR(生效中)、ABROGE(已废止)等
  • article_type_article: 文章类型
  • article_nature: 法律性质
  • article_origine: 来源(如LEGI
  • article_version_article: 版本标识符
  • article_versionPrecedente: 先前版本ID
  • article_multipleVersions: 是否有多版本

层次结构

  • article_sectionParentId: 父章节ID
  • article_sectionParentCid: 父章节合并ID
  • article_sectionParentTitre: 父章节标题
  • article_fullSectionsTitre: 完整层次结构路径
  • article_ordre: 代码内的排序顺序
  • article_partie: 部分(如"Partie legislative")
  • article_livre: 书籍
  • article_titre: 标题
  • article_chapitre: 章节
  • article_section: 节
  • article_sous_section: 小节
  • article_paragraphe: 段落

额外信息

  • article_infosComplementaires: 补充信息(纯文本)
  • article_infosComplementairesHtml: 补充信息(HTML)
  • article_conditionDiffere: 延迟条件
  • article_infosRestructurationBranche: 分支重构信息
  • article_infosRestructurationBrancheHtml: 分支重构信息(HTML)
  • article_renvoi: 交叉引用
  • article_comporteLiensSP: 是否包含SP链接
  • article_idTechInjection: 技术注入ID
  • article_refInjection: 注入引用
  • article_numeroBo: BO编号
  • article_inap: INAP代码

使用示例

python from datasets import load_dataset from datetime import datetime, timezone

ds = load_dataset("ArthurSrz/open_codes", split="train")

访问分块及其嵌入向量和文章元数据

row = ds[0] print(row["code_name"]) # 例如:"Code civil" print(row["chunk_text"][:200]) print(len(row["embedding"])) # 1024

将Unix毫秒时间戳转换为日期时间

date_debut = datetime.fromtimestamp(int(row["article_dateDebut"]) / 1000, tz=timezone.utc)

按法律代码筛选

code_civil = ds.filter(lambda x: x["code_name"] == "Code civil")

仅筛选生效文章

en_vigueur = ds.filter(lambda x: x["article_etat"] == "VIGUEUR")

数据来源

由marIAnne项目 (https://github.com/ArthurSrz/open_codes) 构建。同步管道每晚从PISTE Legifrance获取文章,进行分块处理,并通过Mistral AI生成嵌入向量。

搜集汇总
数据集介绍
main_image_url
构建方式
在法国法律信息数字化进程中,Open Codes数据集通过官方PISTE Legifrance API动态获取现行法律条文,确保了数据来源的权威性与时效性。其构建流程采用自动化同步机制,每日夜间从API提取活跃法律条文,并运用文本分块技术将条文切分为语义连贯的片段。每个文本块均通过Mistral AI的嵌入模型生成1024维向量表示,同时整合了条文的完整元数据,包括法律状态、生效日期及层级结构等信息。在数据发布前,系统会执行去重与陈旧块过滤,以保障数据集的质量与一致性。
使用方法
用户可通过Hugging Face的datasets库直接加载数据集,并利用其丰富的元数据进行灵活筛选,例如按法律名称或条文状态过滤。嵌入向量可用于语义搜索任务,通过计算向量相似度实现法律条文的智能检索与推荐。数据集中的时间戳字段以毫秒级Unix格式存储,需通过标准时间转换方法解析为可读日期。结合Python生态中的数值计算库,用户可进一步实施聚类、分类或可视化分析,探索法律条文间的语义关联与演化规律。该数据集为法律信息检索、智能问答及法规合规检查等应用提供了高质量的基础资源。
背景与挑战
背景概述
在数字化法律信息检索与智能分析领域,法国法律文本的复杂性与动态性构成了独特的研究场景。Open Codes数据集由ArthurSrz团队基于marIAnne项目构建,依托法国官方法律数据库Legifrance的PISTE API,系统性地收录了现行有效的法国法典条文。该数据集通过Mistral AI的嵌入模型生成高维向量表示,不仅提供了法律条文的文本内容,还整合了完整的元数据信息,如条文状态、生效日期及层级结构。其每日同步更新的机制确保了数据的时效性,为法律自然语言处理、语义检索及知识图谱构建等任务提供了结构化基础。
当前挑战
该数据集旨在应对法律文本语义理解与高效检索的核心挑战,包括处理法律术语的多义性、条文间的复杂引用关系以及法律状态的动态演变。在构建过程中,团队需克服数据源的异构性,确保从Legifrance API提取的条文信息在分块处理时保持语义完整性,并解决时间戳格式转换、重复数据过滤及无效片段剔除等技术难题。此外,嵌入模型对法律领域专业知识的适配性、以及跨法典条文的向量空间一致性,亦是实现精准语义分析的关键障碍。
常用场景
经典使用场景
在法律信息检索与智能分析领域,Open Codes数据集为研究者提供了结构化且富含语义的法国法律条文资源。该数据集通过Mistral AI生成的嵌入向量,使得法律条文能够以高维向量形式表示,从而支持基于语义相似度的检索任务。经典使用场景包括构建法律问答系统,用户可通过自然语言查询直接定位相关法律条款;同时,该数据集也常用于法律文本的聚类与分类研究,帮助识别不同法律领域或条文间的关联性。
解决学术问题
Open Codes数据集有效解决了法律自然语言处理中的若干核心学术问题。首先,它通过提供带有高质量嵌入向量的法律文本,促进了法律语义表示学习的研究,使得模型能够更好地理解法律术语的复杂含义。其次,数据集的结构化元数据(如条文状态、生效日期等)支持法律条文时效性与版本演变分析,为法律动态性研究提供了数据基础。此外,该数据集还助力于跨语言法律信息检索的探索,推动法律人工智能的普适性发展。
实际应用
在实际应用层面,Open Codes数据集被广泛集成于法律科技产品与服务中。例如,律师事务所可利用该数据集构建内部法律知识库,实现快速条文检索与案例辅助分析;政府部门则能基于此开发智能法规审查工具,自动检测新政策与现有法律体系的冲突。同时,教育机构可借助数据集开发法律教学辅助系统,帮助学生直观理解法律条文的结构与内容。这些应用显著提升了法律工作的效率与准确性。
数据集最近研究
最新研究方向
在法国法律智能化的浪潮中,Open Codes数据集凭借其官方来源的法国法典条文与Mistral AI生成的嵌入向量,正推动法律自然语言处理的前沿探索。当前研究聚焦于利用其高维向量表示,开发精准的法律语义检索系统,以应对法律条文复杂性与动态更新的挑战。同时,该数据集支持跨条文关联分析与法律知识图谱的构建,为自动化法律咨询、合规性检查及司法决策辅助提供结构化基础。其每日同步机制确保了数据的时效性,使得研究能够紧跟法律修订的实际进程,在数字法治与人工智能交叉领域具有显著的实践意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作