five

louisbrulenaudet/legalkit

收藏
Hugging Face2024-06-26 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/louisbrulenaudet/legalkit
下载链接
链接失效反馈
官方服务:
资源简介:
LegalKit数据集是一个为法语法律文本训练句子嵌入模型而构建的标注数据集。该数据集通过LLaMA-3-70B模型进行标注,确保标签的质量和一致性。数据集包含来自法国法律多个分支的文档,如《劳动法》、《商法》、《货币与金融法》等。数据集适用于训练法语法律文本的句子嵌入模型、改进法语法律文档的信息检索以及增强法律领域的自然语言理解。

LegalKit数据集是一个为法语法律文本训练句子嵌入模型而构建的标注数据集。该数据集通过LLaMA-3-70B模型进行标注,确保标签的质量和一致性。数据集包含来自法国法律多个分支的文档,如《劳动法》、《商法》、《货币与金融法》等。数据集适用于训练法语法律文本的句子嵌入模型、改进法语法律文档的信息检索以及增强法律领域的自然语言理解。
提供机构:
louisbrulenaudet
原始信息汇总

LegalKit, French labeled datasets built for legal ML training

数据集概述

  • 语言: 法语
  • 许可证: CC BY 4.0
  • 数据量: 10K<n<100K
  • 任务类别:
    • 问答
    • 句子相似度
  • 数据集名称: LegalKit

数据集信息

  • 特征:
    • input: 字符串
    • output: 字符串
    • start: 字符串
    • expiration: 字符串
    • num: 字符串
    • query: 字符串
  • 分割:
    • train: 53000个样本, 50990830字节
  • 下载大小: 25033853字节
  • 数据集大小: 50990830字节

配置

  • 默认配置:
    • train分割路径: data/train-*

标签工作流程

  • 初始查询生成: 使用LLaMA-3-70B模型生成三个不同的查询。
  • 最优查询选择: 使用第四个LLaMA-3-70B模型选择最合适的查询。
  • 最终标签分配: 使用选定的查询为文档分配标签。

数据集分布

法律代码名称 文档数量 分布百分比
Code du travail 9102 17.17%
Code de commerce 6800 12.83%
Code monétaire et financier 4514 8.52%
Code général des impôts et annexes 4038 7.62%
Code de la construction et de lhabitation 3658 6.90%
Code de la défense 3501 6.61%
Code de laction sociale et des familles 3343 6.31%
Code civil 2871 5.42%
Code de la consommation 2089 3.94%
Code des assurances 2082 3.93%
Code du cinéma et de limage animée 1949 3.68%
Code de la propriété intellectuelle 1799 3.39%
Code de la commande publique 1747 3.30%
Code pénal 1240 2.34%
Code des impositions sur les biens et services 1050 1.98%
Livre des procédures fiscales 907 1.71%

使用场景

  • 训练法语法律文本的句子嵌入模型
  • 改进法语法律文档的信息检索
  • 增强法律领域的自然语言理解

引用

BibTeX @misc{louisbrulenaudet2024, author = {Louis Brulé Naudet}, title = {LegalKit, French labeled datasets built for legal ML training}, year = {2024} howpublished = {url{https://huggingface.co/datasets/louisbrulenaudet/legalkit}}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作