five

legalkit

收藏
魔搭社区2025-11-27 更新2025-11-03 收录
下载链接:
https://modelscope.cn/datasets/louisbrulenaudet/legalkit
下载链接
链接失效反馈
官方服务:
资源简介:
<img src="assets/legalkit-thumbnail.png"> # LegalKit, French labeled datasets built for legal ML training This dataset consists of labeled data prepared for training sentence embeddings models in the context of French law. The labeling process utilizes the LLaMA-3-70B model through a structured workflow to enhance the quality of the labels. This dataset aims to support the development of natural language processing (NLP) models for understanding and working with legal texts in French. ## Labeling Workflow The labeling process follows a systematic approach to ensure consistency and relevance: - **Initial Query Generation**: Three instances of the LLaMA-3-70B model independently generate three different queries based on the same document. - **Selection of Optimal Query**: A fourth instance of the LLaMA-3-70B model, using a dedicated selection prompt, evaluates the generated queries and selects the most suitable one. - **Final Label Assignment**: The chosen query is used to label the document, aiming to ensure that the label accurately reflects the content and context of the original text. ## Distribution The dataset includes a diverse array of legal documents from various branches of French law. The table below provides an overview of the different legal codes represented in the dataset, along with the count of documents for each code and their distribution as a percentage of the total dataset: | Source | Count | Distribution (%) | |------------------------------------------------|-------|------------------| | Code du travail | 9102 | 17.173585 | | Code de commerce | 6800 | 12.830189 | | Code monétaire et financier | 4514 | 8.516981 | | Code général des impôts et annexes | 4038 | 7.618868 | | Code de la construction et de l'habitation | 3658 | 6.901887 | | Code de la défense | 3501 | 6.605660 | | Code de l'action sociale et des familles | 3343 | 6.307547 | | Code civil | 2871 | 5.416981 | | Code de la consommation | 2089 | 3.941509 | | Code des assurances | 2082 | 3.928302 | | Code du cinéma et de l'image animée | 1949 | 3.677358 | | Code de la propriété intellectuelle | 1799 | 3.394340 | | Code de la commande publique | 1747 | 3.296226 | | Code pénal | 1240 | 2.339623 | | Code des impositions sur les biens et services | 1050 | 1.981132 | | Livre des procédures fiscales | 907 | 1.711321 | ## Usage This dataset is suitable for: - Training sentence embedding models for French legal text - Improving information retrieval in French legal documents - Enhancing natural language understanding in the legal domain To use all the legal data published on LegalKit, you can use this code snippet: ```python # -*- coding: utf-8 -*- from datasets import load_dataset ds = load_dataset("louisbrulenaudet/legalkit") ``` ## Citing & Authors If you use this code in your research, please use the following BibTeX entry. ```BibTeX @misc{louisbrulenaudet2024, author = {Louis Brulé Naudet}, title = {LegalKit, French labeled datasets built for legal ML training}, year = {2024} howpublished = {\url{https://huggingface.co/datasets/louisbrulenaudet/legalkit}}, } ``` ## Feedback If you have any feedback, please reach out at [louisbrulenaudet@icloud.com](mailto:louisbrulenaudet@icloud.com).

<img src="assets/legalkit-thumbnail.png"> # LegalKit:专为法律机器学习训练打造的法语标注数据集 本数据集包含为法语法律场景下训练句子嵌入模型而准备的标注数据。标注流程通过结构化工作流调用LLaMA-3-70B模型,以提升标注质量。本数据集旨在支持用于理解和处理法语法律文本的自然语言处理(Natural Language Processing, NLP)模型的开发。 ## 标注工作流 本标注流程采用系统化方法以确保标注的一致性与相关性: - **初始查询生成**:3个独立的LLaMA-3-70B模型实例基于同一文档生成3种不同的查询。 - **最优查询选择**:第4个LLaMA-3-70B模型实例通过专用选择提示词对生成的查询进行评估,选出最适配的查询。 - **最终标注分配**:将选中的查询用于文档标注,以确保标注能够准确反映原文的内容与上下文。 ## 数据集分布 本数据集涵盖法国法律多个分支领域的多样化法律文档。下表概述了数据集中涵盖的各类法国法律法典,以及各法典对应的文档数量及其在总数据集的占比: | 来源 | 数量 | 占比(%) | |------------------------------------------------|-------|------------------| | 《劳动法典(Code du travail)》 | 9102 | 17.173585 | | 《商法典(Code de commerce)》 | 6800 | 12.830189 | | 《货币与金融法典(Code monétaire et financier)》 | 4514 | 8.516981 | | 《税收总法典及附件(Code général des impôts et annexes)》 | 4038 | 7.618868 | | 《建筑与住房法典(Code de la construction et de l'habitation)》 | 3658 | 6.901887 | | 《国防法典(Code de la défense)》 | 3501 | 6.605660 | | 《社会行动与家庭法典(Code de l'action sociale et des familles)》 | 3343 | 6.307547 | | 《民法典(Code civil)》 | 2871 | 5.416981 | | 《消费法典(Code de la consommation)》 | 2089 | 3.941509 | | 《保险法典(Code des assurances)》 | 2082 | 3.928302 | | 《电影与动画图像法典(Code du cinéma et de l'image animée)》 | 1949 | 3.677358 | | 《知识产权法典(Code de la propriété intellectuelle)》 | 1799 | 3.394340 | | 《公共采购法典(Code de la commande publique)》 | 1747 | 3.296226 | | 《刑法典(Code pénal)》 | 1240 | 2.339623 | | 《货物与服务税法典(Code des impositions sur les biens et services)》 | 1050 | 1.981132 | | 《税收程序法典(Livre des procédures fiscales)》 | 907 | 1.711321 | ## 数据集用途 本数据集适用于: - 训练面向法语法律文本的句子嵌入模型 - 优化法语法律文档的信息检索效果 - 提升法律领域的自然语言理解能力 若要使用LegalKit发布的全部法律数据,可使用以下代码片段: python # -*- coding: utf-8 -*- from datasets import load_dataset ds = load_dataset("louisbrulenaudet/legalkit") ## 引用与作者 若您在研究中使用本数据集,请使用以下BibTeX条目: BibTeX @misc{louisbrulenaudet2024, author = {Louis Brulé Naudet}, title = {LegalKit, French labeled datasets built for legal ML training}, year = {2024}, howpublished = {url{https://huggingface.co/datasets/louisbrulenaudet/legalkit}}, } ## 反馈 若您有任何反馈意见,请通过[louisbrulenaudet@icloud.com](mailto:louisbrulenaudet@icloud.com)联系我们。
提供机构:
maas
创建时间:
2025-10-13
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作