five

eckendoerffer/justice_fr

收藏
Hugging Face2023-09-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/eckendoerffer/justice_fr
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-sa-4.0 language: - fr pretty_name: Law & decision from French justice system tags: - justice - law - legal size_categories: - 100K<n<1M --- # Dataset Card for French Legal Dataset ## Dataset Description The dataset contains a comprehensive collection of French legal books, codes, and appellate court decisions. It encompasses the following: - 150,938 rows -> 140,000 articles of laws, decrees, and orders from the 78 French books and codes, covering all legal domains. The total number of pages is approximately 35,000. - 191,741 rows -> 53,000 appellate court decisions spanning from 2013 to the present day. The dataset includes a wide range of cases and legal opinions. The total number of pages is approximately 150,000. - 1,621 rows -> 1,621 definitions and abbreviations commonly used in legal texts, aiding in understanding and interpreting the legal terminology.s used in legal texts. Total: 344,300 rows Line breaks are included in the legal texts. They are necessary to maintain the indentations and paragraphs mentioned in other laws and court decisions. ### Languages The dataset is in French only. ## Dataset Structure ``` { "instruction":"Code du travail > Partie l\u00e9gislative > Livre III : Les institutions repr\u00e9sentatives du personnel > Titre Ier : Comit\u00e9 social et \u00e9conomique > Chapitre IV : Composition, \u00e9lections et mandat > Section 1 : Composition > Article L2314-2 (Loi)", "input":"Je souhaite l'Article L2314-2 du Code du travail", "output":"Voici l'Article L2314-2 du Code du travail: Sous r\u00e9serve des dispositions applicables dans les entreprises de moins de trois cents salari\u00e9s, pr\u00e9vues \u00e0 l'article L. 2143-22, chaque organisation syndicale repr\u00e9sentative dans l'entreprise ou l'\u00e9tablissement peut d\u00e9signer un repr\u00e9sentant syndical au comit\u00e9. Il assiste aux s\u00e9ances avec voix consultative. Il est choisi parmi les membres du personnel de l'entreprise et doit remplir les conditions d'\u00e9ligibilit\u00e9 au comit\u00e9 social et \u00e9conomique fix\u00e9es \u00e0 l'article L. 2314-19." }, ``` ### Data Fields - `instruction`: - French books and codes -> hierarchy from law text: "Code pénal > Partie législative > Livre II : Des crimes et délits contre les personnes > Titre II : Des atteintes à la personne humaine > Chapitre Ier : Des atteintes à la vie de la personne > Section 2 : Des atteintes involontaires à la vie > Article 221-6" - Court decisions -> location, chamber, decision number, decision date, part: "Cour d'appel de Paris I5, Cour de cassation Chambre commerciale financière et économique, décision 18-13.763 du 14/04/2021, partie 1" - `input`: - French books and codes -> questions with multiple variations, such as: "What does Article XX of Code XX say?" - Court decisions -> empty - `output`: - French books and codes -> laws text - Court decisions -> decisions text The text has been limited/split to approximately 820 words per row, with an average of 1500 tokens (French -> Falcon tokenizer). The goal is to not exceed 2048 tokens, with a margin of error. ## Dataset Creation ### Source Data #### Initial Data Collection and Normalization - All French codes (PDF): https://www.legifrance.gouv.fr/liste/code?etatTexte=VIGUEUR&etatTexte=VIGUEUR_DIFF - Court decisions from JUDILIBRE API: https://piste.gouv.fr/index.php?option=com_apiportal&view=apitester&usage=api&apitab=tests&apiName=JUDILIBRE&apiId=b6d2f389-c3ec-4eb3-9075-bc24d0783781&managerId=2&type=rest&apiVersion=1.0.0&Itemid=265&swaggerVersion=2.0&lang=fr #### Who are the source language producers? Comming directly from French justice system. ## Additional Information ### Licensing Information The dataset is available under the Creative Commons Attribution-ShareAlike License
提供机构:
eckendoerffer
原始信息汇总

数据集概述

数据集名称

  • 名称: Law & decision from French justice system
  • 别名: French Legal Dataset

数据集内容

  • 法律条文: 包含140,000篇文章,来自78本法国法律书籍和法典,总计约35,000页。
  • 上诉法院判决: 包含53,000个判决,覆盖2013年至今,总计约150,000页。
  • 法律术语定义: 包含1,621个常用法律术语的定义和缩写。
  • 总计行数: 344,300行

语言

  • 语言: 法语

数据集结构

  • 数据字段:
    • instruction: 法律条文的层次结构或法院判决的详细信息。
    • input: 用户查询法律条文的问题。
    • output: 法律条文或法院判决的文本内容。
  • 文本限制: 每行约820字,平均1500个标记,不超过2048个标记。

数据集创建

  • 源数据:
    • 法律条文来自法国官方网站的法律书籍和法典。
    • 法院判决来自JUDILIBRE API。
  • 语言生产者: 直接来自法国司法系统。

许可信息

  • 许可: 遵循Creative Commons Attribution-ShareAlike License (cc-by-sa-4.0)。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作