louisbrulenaudet/code-sport

Name: louisbrulenaudet/code-sport
Creator: louisbrulenaudet
Published: 2024-07-21 19:01:42
License: 暂无描述

Hugging Face2024-07-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/louisbrulenaudet/code-sport

下载链接

链接失效反馈

官方服务：

资源简介：

Code du sport数据集专注于微调预训练语言模型，以创建适用于法律实践的高效和准确模型。数据集生成过程中使用了多种指令来指导模型生成文章内容，每条记录包含指令、输入、输出、生效日期、过期日期和文章ID等信息。该数据集适用于文本生成、表格问答、摘要、文本检索、问答和文本分类等任务。

提供机构：

louisbrulenaudet

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
语言: 法语
多语言性: 单语种
标签: 微调, 法律, 法国法律, 法国体育法, 体育法典
数据来源: 原始数据
美观名称: 体育法典
任务类别: 文本生成, 表格问答, 摘要, 文本检索, 问答, 文本分类
数据规模: 1K<n<10K

数据集描述

该项目专注于微调预训练语言模型，以创建高效且准确的模型用于法律实践。微调过程涉及通过在特定任务或领域数据上进一步训练来调整模型的参数。指令式微调利用人类提供的指令来指导模型的行为，这些指令可以是文本提示、带有明确任务描述的提示或两者的组合。

数据集生成

该JSON文件是一个字典列表，每个字典包含以下字段：

instruction: 字符串，表示与元素相关的指令。
input: 字符串，表示元素的输入细节。
output: 字符串，表示元素的输出信息。
start: 字符串，表示文章生效日期。
expiration: 字符串，表示文章失效日期。
num: 字符串，表示文章的ID。

用于生成数据集的指令列表如下： python instructions = [ "Compose lintégralité de larticle sous forme écrite.", "Écris la totalité du contenu de larticle.", "Formule la totalité du texte présent dans larticle.", "Produis lintégralité de larticle en écriture.", "Développe larticle dans son ensemble par écrit.", "Génère lensemble du texte contenu dans larticle.", "Formule le contenu intégral de larticle en entier.", "Rédige la totalité du texte de larticle en entier.", "Compose lintégralité du contenu textuel de larticle.", "Rédige lensemble du texte qui constitue larticle.", "Formule larticle entier dans son contenu écrit.", "Composez lintégralité de larticle sous forme écrite.", "Écrivez la totalité du contenu de larticle.", "Formulez la totalité du texte présent dans larticle.", "Développez larticle dans son ensemble par écrit.", "Générez lensemble du texte contenu dans larticle.", "Formulez le contenu intégral de larticle en entier.", "Rédigez la totalité du texte de larticle en entier.", "Composez lintégralité du contenu textuel de larticle.", "Écrivez larticle dans son intégralité en termes de texte.", "Rédigez lensemble du texte qui constitue larticle.", "Formulez larticle entier dans son contenu écrit.", "Composer lintégralité de larticle sous forme écrite.", "Écrire la totalité du contenu de larticle.", "Formuler la totalité du texte présent dans larticle.", "Produire lintégralité de larticle en écriture.", "Développer larticle dans son ensemble par écrit.", "Générer lensemble du texte contenu dans larticle.", "Formuler le contenu intégral de larticle en entier.", "Rédiger la totalité du texte de larticle en entier.", "Composer lintégralité du contenu textuel de larticle.", "Rédiger lensemble du texte qui constitue larticle.", "Formuler larticle entier dans son contenu écrit.", "Quelles sont les dispositions de larticle ?", "Quelles dispositions sont incluses dans larticle ?", "Quelles sont les dispositions énoncées dans larticle ?", "Quel est le texte intégral de larticle ?", "Quelle est la lettre de larticle ?" ]

搜集汇总

数据集介绍

构建方式

在法国法律文本数字化进程中，该数据集通过自动化流程从官方法律数据库提取《体育法典》条文，构建了结构化的法律语料库。数据每日更新，确保条文时效性，每条记录包含法律条文的核心内容、生效日期、法律状态等元数据，并采用统一标识符体系进行编码，便于追踪条文版本演变与关联关系。

特点

该数据集专注于法国体育法领域，提供法语单语种的法律条文文本，涵盖条文正文、注释、历史版本及层级结构信息。其特色在于丰富的元数据标注，包括条文生效状态、版本标识、欧洲立法索引等，支持对法律条文进行多维度检索与分析，适用于文本生成、问答及分类等多种自然语言处理任务。

使用方法

研究人员可通过HuggingFace平台直接加载该数据集，或利用配套工具RAGoon批量集成多个法律法典数据。数据集适用于训练法律领域语言模型，也可用于构建法律问答系统、条文摘要生成及信息检索等应用。使用时应结合条文元数据，如生效日期与法律状态，以确保分析结果的准确性与时效性。

背景与挑战

背景概述

在自然语言处理与法律科技交叉领域，法国体育法典数据集（Code du sport）的构建标志着法律文本结构化与智能化处理的重要进展。该数据集由研究者Louis Brulenaudet于2025年7月发布，旨在为研究人员、法律从业者及学生提供简化且实时更新的法国法律文本访问途径。其核心研究问题聚焦于如何将复杂的法律条文转化为机器可读的标准化数据，以支持法律信息检索、问答系统及文本生成等下游任务。通过整合丰富的元数据与版本控制信息，该数据集不仅促进了法语法律语言模型的开发，也为欧盟范围内的法律协同项目提供了数据基础，对推动法律人工智能的开放性与可及性具有显著影响力。

当前挑战

该数据集致力于解决法律文本理解与处理的固有挑战，包括法律条文的语义歧义性、时效性动态更新以及跨条文关联推理的复杂性。在构建过程中，面临多重技术障碍：法律文本的非结构化原始格式需转化为统一的数据模式，同时需确保条文版本变迁、生效日期及废止状态等时序信息的精确标注。此外，法律术语的多义性与上下文依赖性要求细致的语义标注，而大规模法律语料的日常更新机制也需平衡数据一致性与实时性。这些挑战共同构成了法律人工智能领域从数据准备到模型应用的全链条难题。

常用场景

经典使用场景

在体育法领域，该数据集为自然语言处理任务提供了结构化的法律文本资源。其经典使用场景聚焦于法律文本的自动化处理，例如通过文本生成技术模拟法律条款的起草，或利用问答系统解析《体育法典》中的具体条文。研究者可借助该数据集构建模型，以理解法语法律语言的复杂结构，从而支持法律文档的智能检索与摘要生成。

衍生相关工作

围绕该数据集，已衍生出多项经典工作，包括基于RAGoon工具链的法律数据集集成框架，以及针对法语法律文本的预训练模型。这些工作扩展了数据集的用途，如开发多法典联合分析系统，或结合欧洲法律项目进行跨法规推理研究，推动了开源法律人工智能生态的构建。

数据集最近研究