french-civil-code-augmented
收藏Hugging Face2026-05-16 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/Dr-joss/french-civil-code-augmented
下载链接
链接失效反馈官方服务:
资源简介:
法国民法典数据集(清理与增强版)是一个经过精心整理和增强的法国民法典版本,专门设计用于训练语言模型处理法语法律术语和推理任务。该数据集包含两个核心组成部分:一是清理后的法律条款,即从法国民法典中提取的原始条款,经过过滤移除了已废弃内容和无效链接;二是合成的问答对,由大型语言模型(Mistral/GPT-4)生成,基于特定法律条款模拟法律咨询场景。数据集采用JSONL格式,遵循ChatML模板,与Qwen、Mistral等现代架构兼容。主要数据字段为“text”,包含对话内容或法律条款的纯文本表示,结构化对话以<|im_start|>user和<|im_end|>标记开始。数据预处理包括移除仅包含URL、行政占位符或“已废除”提及而无实质内容的“不相关”条款,并为关键条款生成了展示法律如何应用于现实生活场景(如继承、财产权、义务)的合成情景。该数据集旨在扩展分词器的领域特定语料库,并微调模型以理解法语法律文本的正式和古老结构。数据集基于官方法国民法典(Legifrance),许可证为Apache-2.0,语言为法语,标签涉及法律和民法典领域。
The French Civil Code Dataset (Cleaned and Enhanced Version) is a meticulously curated and enhanced version of the French Civil Code, specifically designed for training language models to handle French legal terminology and reasoning tasks. The dataset consists of two core components: one is the cleaned legal provisions, i.e., original provisions extracted from the French Civil Code, filtered to remove obsolete content and invalid links; the other is synthetic question-answer pairs generated by large language models (Mistral/GPT-4) based on specific legal provisions to simulate legal consultation scenarios. The dataset is in JSONL format, following the ChatML template, and is compatible with modern architectures like Qwen and Mistral. The main data field is text, containing plain-text representations of dialogue content or legal provisions, with structured dialogues starting with <|im_start|>user and <|im_end|> tags. Data preprocessing includes removing irrelevant provisions that contain only URLs, administrative placeholders, or abrogated mentions without substantive content, and generating synthetic scenarios for key provisions to demonstrate how laws apply to real-life situations (such as inheritance, property rights, obligations). This dataset aims to expand the domain-specific corpus for tokenizers and fine-tune models to understand the formal and archaic structures of French legal texts. The dataset is based on the official French Civil Code (Legifrance), licensed under Apache-2.0, in the French language, with tags covering legal and civil code domains.
创建时间:
2026-05-03
搜集汇总
数据集介绍

构建方式
本数据集以法国民法典的原始法律条文为基底,通过精心筛选与增强处理构建而成。首先,对原始条款进行清洗,剔除了包含无效链接、行政占位符或已被废止且无实质内容的‘不良’条目。其次,针对关键法条,利用Mistral与GPT-4等先进大语言模型生成合成问答对,模拟法律实务中的真实咨询场景,从而将抽象条文转化为具象的法律应用案例。数据以JSONL格式呈现,并遵循ChatML模板进行结构化组织,确保与现代模型架构的兼容性。
特点
该数据集的核心特点在于其双重构成:既包含经过净化的真实法典条文,又涵盖由大语言模型衍生的指令式对话数据。这种设计既保留了法国法律文本特有的正式与古朴语言风格,又通过合成情境拓展了法律知识的应用维度。此外,数据已去除废弃内容与噪点,专注于遗产、产权、债务等关键民事领域,为模型理解法国法律术语与推理逻辑提供了高质量的领域专属语料。
使用方法
数据集主要用于法语法律领域大模型的领域适配与分词器扩展。使用者可直接利用其JSONL格式,结合ChatML模板,对Qwen、Mistral等架构的模型进行微调。在微调过程中,清洁的条文可作为无监督语料用于词汇表扩充,而合成问答对则适用于监督式指令微调,以增强模型应对法律咨询的推理与生成能力。建议将两部分数据组合使用,以实现从语言理解到应用推理的全面优化。
背景与挑战
背景概述
法国民法典作为大陆法系的重要基石,其条文体系严谨且历史悠久,对法律推理与语言模型的结合提出了独特需求。french-civil-code-augmented数据集由研究团队基于Legifrance官方来源创建,旨在通过清理后的法律条文与合成问答对,增强模型对法国法律术语及形式化逻辑的理解。该数据集于近年来开发,核心研究问题聚焦于如何将结构化民法典知识适配至大语言模型领域,以提升模型在法律咨询、条款解析等任务上的表现。其影响力体现在为法语法律自然语言处理提供了标准化基准,推动了司法文本自动化分析与多语言法律推理的进展。
当前挑战
在领域问题层面,数据集需应对法国法律文本中复杂的句式结构与术语歧义,确保模型能准确区分条文的历史版本与现行效力,避免因法条废止或替换导致的推理错误。构建过程中,挑战包括:从Legifrance原始数据中过滤无效链接与行政占位符,清理大量描述性而非规范性的‘不当’条款;同时利用LLM生成合成问答对时,需确保场景覆盖关键法条(如继承权、物权)且不引入幻觉,保持训练数据与真实法律咨询的一致性。此外,法语法律文书的半结构化属性要求数据处理流程平衡时效性与系统性,以维持数据的权威性和可迁移性。
常用场景
经典使用场景
该数据集的核心应用在于为法国法律领域的语言模型提供高质量的微调数据。通过整合清理后的法国民法典原始条文与由大语言模型(如Mistral、GPT-4)生成的合成问答对,它能够有效训练模型掌握法国法律术语、条文逻辑与推理能力。研究者常利用其结构化对话模板(ChatML格式)开展法律咨询场景的模拟训练,使模型在回答用户关于继承权、财产归属、合同义务等具体法律问题时,能够援引准确法条并作出符合法典精神的阐释。
解决学术问题
该数据集致力于解决法律人工智能领域的两个核心学术难题:一是法律领域专有词汇与复杂句式导致的语言模型领域适配困难,二是法典条文与实际生活场景之间的语义鸿沟。通过剔除过时条款与无效链接,它提供了纯净的法典语料,帮助扩展领域分词器;而合成问答对的引入,则构建了从抽象法条到具体案例推演的桥梁。这一设计显著提升了模型在法律逻辑推理与泛化能力上的表现,为法律NLP研究提供了可靠基准。
衍生相关工作
该数据集的发布催生了若干衍生工作。研究者基于其清理后的条文部分,开发了法国法律代码的语义检索系统,实现了跨条款的关联推理;另有一些工作聚焦于合成问答数据的质量评估,提出了面向法律场景的答案准确性与逻辑一致性自动评测指标。此外,该数据集的构建范式——即“法典清理+合成场景生成”——已被迁移至德国、意大利等国民法典的改造项目,推动了多语种法律NLP预训练语料库的标准化进程。
以上内容由遇见数据集搜集并总结生成



