Nicolas-BZRD/DILA_OPENDATA_FR_2023
收藏Hugging Face2023-10-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Nicolas-BZRD/DILA_OPENDATA_FR_2023
下载链接
链接失效反馈官方服务:
资源简介:
法国政府开放数据(DILA)数据集是一个从法国政府提供的各种来源中提取的文本数据集合,特别是来自Direction de linformation légale et administrative (DILA)的法律、行政和立法文件。数据集被组织成多个类别,如acco(会计和财务相关法律文件)、balo(法律公告相关文件)、capp(公共政策和规划相关行政文件)等。数据集的大小为25.65 GB,语言为法语,数据格式为纯文本,许可证为OPEN LICENCE。每个文档都有一个唯一的标识符和主要文本内容。
The French Government Open Data (DILA) Dataset is a collection of text data extracted from various sources provided by the French government, specifically the Direction de linformation légale et administrative (DILA). This dataset contains a wide range of legal, administrative, and legislative documents. The data has been organized into several categories for easy access and analysis. The dataset is organized into the following splits or categories: acco (Legal documents related to accounting and finance), balo (Documents related to the Bulletin des Annonces Légales Obligatoires (BALO), which publishes legal notices), capp (Administrative documents related to public policies and planning), cass (Documents related to the Cour de cassation (Court of Cassation), Frances highest judicial court), cnil (Documents related to the Commission nationale de linformatique et des libertés (CNIL), which deals with data protection and privacy), constit (Documents related to the French constitution and constitutional law), debats (Transcripts of parliamentary debates and discussions), dole (Documents related to employment and unemployment benefits), inca (Documents related to the Institut National du Cancer (INCa), which deals with cancer research and policy), jade (Legal documents related to jurisprudence and legal decisions), jorf (Documents related to the Journal Officiel de la République Française (JORF), the official journal of the French government), kali (Documents related to the Kali database, which contains collective agreements), legi (Legal documents related to French legislation), qr (Questions and answers related to parliamentary sessions), sarde (Documents related to the Service dadministration des réseaux de lÉtat (SARDE), which manages government networks). The dataset is in French, with a size of 25.65 GB, and is available under the OPEN LICENCE. The data format is plain text, and each document is identified by a unique ID and contains text content. The dataset is suitable for tasks like text classification, question-answering, and text generation.
提供机构:
Nicolas-BZRD
原始信息汇总
French Government Open Data (DILA) Dataset - 2023
概述
法国政府开放数据(DILA)数据集是从法国政府提供的各种来源中提取的文本数据集合,特别是行政和法律信息方向(DILA)。该数据集包含广泛的法律法规、行政和立法文件。数据已被组织成多个类别,以便于访问和分析。
数据集拆分
数据集被组织成以下拆分或类别:
- acco:与会计和财务相关的法律文件。
- balo:与法定公告公报(BALO)相关的文件,发布法律通知。
- capp:与公共政策和规划相关的行政文件。
- cass:与法国最高司法法院(Cour de cassation)相关的文件。
- cnil:与数据保护和隐私相关的文件,涉及国家信息技术和自由委员会(CNIL)。
- constit:与法国宪法和宪法法相关的文件。
- debats:议会辩论和讨论的文字记录。
- dole:与就业和失业救济相关的文件。
- inca:与国家癌症研究所(INCa)相关的文件,涉及癌症研究和政策。
- jade:与判例和法律裁决相关的法律文件。
- jorf:与法国官方公报(JORF)相关的文件,法国政府的官方期刊。
- kali:与Kali数据库相关的文件,包含集体协议。
- legi:与法国立法相关的法律文件。
- qr:与议会会议相关的问题和答案。
- sarde:与国家网络管理服务(SARDE)相关的文件,管理政府网络。
数据集详细信息
- 大小:25.65 GB(25,647,979,364字节)
- 语言:法语
- 数据格式:纯文本
- 许可证:OPEN LICENCE
- 数据来源:https://echanges.dila.gouv.fr/OPENDATA/
- 数据收集日期:2023年10月
- 数据结构:Id, Text
- Id:每个文档的唯一标识符,由拆分名称和文件名组成(split/file_name.txt)。
- Text:文档的主要文本内容。
许可证信息
法国政府开放数据(DILA)数据集根据“LICENCE OUVERTE / OPEN LICENCE Version 2.0”条款提供。
- 许可证名称:LICENCE OUVERTE / OPEN LICENCE Version 2.0
- 许可证文本:完整的LICENCE OUVERTE / OPEN LICENCE Version 2.0文本可以在这里找到(法语)。
- 摘要:该许可证允许您:
- 在任何媒介、模式或格式中,以任何合法目的复制、修改、发布、翻译、分发或以其他方式利用数据。
- 在使用数据时,通过提供适当的归属来确认数据的来源。
- 确保不以任何方式使用数据,暗示法国政府或行政和法律信息方向(DILA)的任何官方地位或认可。
- 遵守许可证的条款和条件。
使用此数据集即表示您同意遵守LICENCE OUVERTE / OPEN LICENCE Version 2.0中规定的条款和条件。有关更多详细信息,请查看上述链接中提供的完整许可证文本。



