BrainboxAI/legal-training-il
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/BrainboxAI/legal-training-il
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- he
- en
license: cc-by-4.0
tags:
- legal
- hebrew
- israel
- law
- court-rulings
- contracts
- fine-tuning
- instruction-tuning
task_categories:
- text-generation
- question-answering
size_categories:
- 10K<n<100K
---
# BrainboxAI/legal-training-il
### Hebrew & English Legal Training Dataset
17,613 instruction-tuning samples for training legal AI models on Israeli law.
## Dataset Composition
| Source | Samples | Language | Content |
|--------|---------|----------|---------|
| Israeli Court Rulings (HF) | 3,978 | Hebrew | Supreme Court, Family, Criminal, Civil |
| Israeli Court Rulings (existing) | 3,982 | Hebrew | Various courts and tribunals |
| Kol-Zchut (כל-זכות) | 2,353 | Hebrew | Citizens' rights explanations |
| Open Law Book (ספר החוקים הפתוח) | 300 | Hebrew | Israeli legislation via Wikisource |
| Contract Clauses (CUAD-based) | 7,000 | English | 41 contract types, 28 clause categories |
| **Total** | **17,613** | **60% Hebrew** | |
## Format
Alpaca instruction format (JSONL):
```json
{
"instruction": "מה הזכויות שלי בנושא פיצויי פיטורים?",
"input": "",
"output": "לפי חוק פיצויי פיטורים, תשכ\"ה-1967..."
}
```
## Sources
### Hebrew Legal Data
- **Israeli Court Rulings** - [guychuk/case-law-israel](https://huggingface.co/datasets/guychuk/case-law-israel) - 10,558 judgments from Israeli courts
- **Kol-Zchut** - [kolzchut.org.il](https://www.kolzchut.org.il/) - Israeli citizens' rights knowledge base, 2,353 articles covering labor law, housing, health, insurance, disability, pensions, and more
- **Open Law Book** - [openlaw.org.il](https://www.openlaw.org.il/) - 5,969 consolidated Israeli laws via Hebrew Wikisource, a joint project of the Public Knowledge Workshop and Wikimedia Israel
### English Legal Data
- **Contract Clauses** - Based on [CUAD](https://www.atticusprojectai.org/cuad/) methodology, covering 41 contract types across 28 clause categories including License Grant, Liability Cap, Audit Rights, Anti-Assignment, Termination, Change of Control, and more
## Instruction Types
| Type | Example | Source |
|------|---------|--------|
| Court ruling analysis | "נתח את פסק הדין הבא..." | Court rulings |
| Rights Q&A | "מה הזכויות שלי בנושא...?" | Kol-Zchut |
| Law explanation | "הסבר את החוק הבא בצורה מובנת..." | Open Law Book |
| Contract clause analysis | "What are the key legal implications of this clause?" | CUAD contracts |
## Usage
```python
from datasets import load_dataset
dataset = load_dataset("BrainboxAI/legal-training-il", split="train")
print(f"Samples: {len(dataset)}")
```
### Fine-tuning with Unsloth
```python
from unsloth import FastLanguageModel
from datasets import load_dataset
model, tokenizer = FastLanguageModel.from_pretrained(
model_name="unsloth/gemma-4-E2B-it",
max_seq_length=2048,
load_in_4bit=True,
)
dataset = load_dataset("BrainboxAI/legal-training-il", split="train")
```
## Trained Model
This dataset was used to train [BrainboxAI/law-il-E2B](https://huggingface.co/BrainboxAI/law-il-E2B) - a Hebrew legal AI model based on Gemma 4 E2B.
## Limitations
- Court ruling outputs are currently summaries, not full legal analysis
- Contract clause data is in English with template-based analysis
- No case law citations or cross-references between sources
- Kol-Zchut content reflects rights information, not legal rulings
## License
CC-BY-4.0. Individual sources may have additional terms:
- Kol-Zchut: CC-BY-SA
- Open Law Book: Public domain (Wikisource)
- Court rulings: Israeli government public data
---
Built by [BrainboxAI](https://brainboxai.io)
提供机构:
BrainboxAI
搜集汇总
数据集介绍

构建方式
在以色列法律智能化的背景下,该数据集通过系统化的构建流程,整合了多元化的法律文本资源。构建过程始于原始数据的收集,涵盖以色列法院公开的判决文书、Kol-Zchut平台的公民权利页面、Wikisource中的成文法条文以及经过人工分类的合同条款样本。随后,所有文本均被规范化处理,转换为统一的指令-响应对话格式,并经过严格的质量筛选,剔除了格式不规范、缺乏法律引用或包含个人身份信息的条目。为确保模型习得法律推理能力,每条响应均被结构化编辑,遵循识别法律条文、通俗解释、引用先例以及提示关键注意事项的四步模式。此外,部分条目经过双语翻译与校对,形成了希伯来语与英语的对应语对,以支持推理时的语言切换能力。
使用方法
该数据集主要应用于法律自然语言处理的研究与实践,尤其适合用于对中小规模开源语言模型进行指令微调,以构建专注于以色列法律问答的智能辅助系统。推荐的使用方法包括采用QLoRA等参数高效微调技术,在已具备指令跟随能力的基座模型上进行训练,例如使用`unsloth/gemma-4-E2B-it`模型,并配置特定的LoRA参数与数据划分种子以确保实验可复现性。数据集可用于评估模型在希伯来语法律推理任务上的性能,或作为低资源法律NLP研究的语料基础。其设计初衷是支持开发服务于以色列律所的隐私保护型法律科技工具,但使用者需注意,模型输出不可直接替代专业律师的法律意见,所有法律引用均需经过人工核实。数据集遵循CC BY 4.0许可,允许商业与非商业用途,但需遵守来源材料各自的许可规定。
背景与挑战
背景概述
随着人工智能在法律领域的应用日益深入,针对特定司法管辖区的法律语言模型训练需求不断增长。Legal-Training-IL数据集由BrainboxAI机构的Netanel Elyasi于2026年创建,旨在构建一个专门针对以色列法律体系的双语指令微调语料库。该数据集聚焦于法律推理能力的培养,核心研究问题是如何使通用语言模型适应以色列法律工作,涵盖法院裁决、法规条文、公民权利页面及合同条款等多源内容。其影响力体现在为低资源希伯来语法律自然语言处理研究提供了高质量数据支撑,并推动了隐私保护型法律科技工具的发展。
当前挑战
该数据集致力于解决以色列法律问答与推理任务中的挑战,包括法律文本的多语言混合性、专业术语的精确理解以及复杂法律逻辑的建模。构建过程中的挑战具体表现为:首先,数据来源多样且质量不均,需对原始材料进行严格的格式规范化与质量过滤,以消除格式错误及个人信息。其次,为确保法律推理的严谨性,必须强制实施结构化的四步响应模式,并处理希伯来语与英语的双语对齐问题。此外,数据覆盖范围存在不均衡现象,劳动法与家庭法过度代表,而行政法与税法则相对薄弱,且部分法律条文可能随时间更新,存在时效性局限。
常用场景
经典使用场景
在以色列法律自然语言处理领域,Legal-Training-IL数据集最经典的使用场景是作为指令微调语料库,专门用于训练和优化中小规模的语言模型,使其能够理解和回应与以色列法律相关的复杂查询。该数据集通过精心构建的对话格式,模拟律师与客户之间的互动,涵盖了法院判决、法规条文、公民权利指南以及合同条款等多个法律文本类型。这种设计使得模型能够学习如何依据以色列的具体法律条文和判例进行推理,而非仅仅进行事实性记忆,从而在希伯来语和英语双语环境下,为法律问答、文书起草和案例摘要等任务提供可靠支持。
解决学术问题
该数据集有效解决了低资源语言法律自然语言处理中的核心学术挑战,特别是针对希伯来语这类资源相对匮乏的法律文本分析。它通过提供高质量、结构化的双语指令对,促进了法律推理模型的发展,使研究者能够探索模型在法律条文引用、判例应用以及通俗解释等方面的能力。其意义在于为以色列法律人工智能研究建立了基准,推动了跨语言法律信息处理技术的进步,并为如何在有限数据下构建专业领域模型提供了方法论参考,对提升法律服务的可及性和效率具有深远影响。
实际应用
在实际应用层面,Legal-Training-IL数据集主要用于开发面向以色列法律市场的智能辅助工具。例如,律师事务所可以利用基于该数据集微调的模型,快速生成合同条款草案、初步分析案件法律依据或为客户提供常见权利问题的自动化解答。这些工具能够提升法律工作的效率,降低服务成本,并有助于普及法律知识。特别是在隐私保护要求较高的场景下,其支持的小规模模型可部署于本地设备,为法律专业人士提供安全、即时的辅助,而不必将敏感数据上传至云端。
数据集最近研究
最新研究方向
在低资源法律自然语言处理领域,Legal-Training-IL数据集正推动以色列法律人工智能的前沿探索。该数据集通过精心构建的双语指令微调语料库,为小型开源模型在希伯来语法律推理任务上的适配提供了关键资源。当前研究聚焦于利用该数据集训练参数规模在2B至8B之间的轻量级模型,以实现隐私保护型的本地化法律助手,这尤其符合以色列法律科技对数据安全和领域专业性的双重需求。数据集涵盖法院判决、法规条文、公民权利页面及合同条款,其强调的四步推理模式——识别法规、通俗解释、引用先例及提示注意事项——正引导研究朝向结构化、可解释的法律问答系统发展。相关热点事件包括利用QLoRA等高效微调技术,在资源受限环境下提升模型对以色列特定法律条文和判例的理解能力,这为多语言、低资源法律人工智能系统的构建提供了重要范例。
以上内容由遇见数据集搜集并总结生成



