louisbrulenaudet/legalkit
收藏Hugging Face2024-06-26 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/louisbrulenaudet/legalkit
下载链接
链接失效反馈官方服务:
资源简介:
LegalKit数据集是一个为法语法律文本训练句子嵌入模型而构建的标注数据集。该数据集通过LLaMA-3-70B模型进行标注,确保标签的质量和一致性。数据集包含来自法国法律多个分支的文档,如《劳动法》、《商法》、《货币与金融法》等。数据集适用于训练法语法律文本的句子嵌入模型、改进法语法律文档的信息检索以及增强法律领域的自然语言理解。
LegalKit数据集是一个为法语法律文本训练句子嵌入模型而构建的标注数据集。该数据集通过LLaMA-3-70B模型进行标注,确保标签的质量和一致性。数据集包含来自法国法律多个分支的文档,如《劳动法》、《商法》、《货币与金融法》等。数据集适用于训练法语法律文本的句子嵌入模型、改进法语法律文档的信息检索以及增强法律领域的自然语言理解。
提供机构:
louisbrulenaudet
原始信息汇总
LegalKit, French labeled datasets built for legal ML training
数据集概述
- 语言: 法语
- 许可证: CC BY 4.0
- 数据量: 10K<n<100K
- 任务类别:
- 问答
- 句子相似度
- 数据集名称: LegalKit
数据集信息
- 特征:
input: 字符串output: 字符串start: 字符串expiration: 字符串num: 字符串query: 字符串
- 分割:
train: 53000个样本, 50990830字节
- 下载大小: 25033853字节
- 数据集大小: 50990830字节
配置
- 默认配置:
train分割路径:data/train-*
标签工作流程
- 初始查询生成: 使用LLaMA-3-70B模型生成三个不同的查询。
- 最优查询选择: 使用第四个LLaMA-3-70B模型选择最合适的查询。
- 最终标签分配: 使用选定的查询为文档分配标签。
数据集分布
| 法律代码名称 | 文档数量 | 分布百分比 |
|---|---|---|
| Code du travail | 9102 | 17.17% |
| Code de commerce | 6800 | 12.83% |
| Code monétaire et financier | 4514 | 8.52% |
| Code général des impôts et annexes | 4038 | 7.62% |
| Code de la construction et de lhabitation | 3658 | 6.90% |
| Code de la défense | 3501 | 6.61% |
| Code de laction sociale et des familles | 3343 | 6.31% |
| Code civil | 2871 | 5.42% |
| Code de la consommation | 2089 | 3.94% |
| Code des assurances | 2082 | 3.93% |
| Code du cinéma et de limage animée | 1949 | 3.68% |
| Code de la propriété intellectuelle | 1799 | 3.39% |
| Code de la commande publique | 1747 | 3.30% |
| Code pénal | 1240 | 2.34% |
| Code des impositions sur les biens et services | 1050 | 1.98% |
| Livre des procédures fiscales | 907 | 1.71% |
使用场景
- 训练法语法律文本的句子嵌入模型
- 改进法语法律文档的信息检索
- 增强法律领域的自然语言理解
引用
BibTeX @misc{louisbrulenaudet2024, author = {Louis Brulé Naudet}, title = {LegalKit, French labeled datasets built for legal ML training}, year = {2024} howpublished = {url{https://huggingface.co/datasets/louisbrulenaudet/legalkit}}, }



