judicialmind/legal-training-dataset

Name: judicialmind/legal-training-dataset
Creator: judicialmind
Published: 2026-04-24 19:03:43
License: 暂无描述

Hugging Face2026-04-24 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/judicialmind/legal-training-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

JudicialMind法律训练数据集是一个大规模、多语言的查询-段落语料库，旨在训练和评估法律信息检索和问答系统。该数据集包含369万条带注释的查询-段落对，涵盖35种语言，涉及亚洲、欧洲、北美、南美和大洋洲的法律体系。数据集由264个parquet文件组成，磁盘占用约2.6 GB，并采用文件级的A/B/C桶分割以实现清晰的训练/验证/测试分区。每条记录包含丰富的元数据，如查询类型、法律领域、难度、司法管辖区、令牌计数等。该数据集适用于训练密集检索模型、重排交叉编码器、多语言法律问答LLM，以及评估法律用途的RAG流程。

The JudicialMind Legal Training Dataset is a large-scale, multilingual query–passage corpus for training and evaluating legal information-retrieval and question-answering systems. It includes 3.69 million annotated query–passage pairs across 35 languages spanning Asia, Europe, North & South America, and Oceania. The dataset consists of 264 parquet files, totaling ~2.6 GB on disk, with a file-level A / B / C bucket split for clean train / validation / test partitioning. Each row features rich metadata such as query_type, legal_domain, difficulty, jurisdiction, token_count, etc. This dataset is suitable for fine-tuning dense retrievers, reranker cross-encoders, multilingual legal-QA LLMs, and benchmarking RAG pipelines for legal use-cases.

提供机构：

judicialmind

5,000+

优质数据集

54 个

任务类型

进入经典数据集