five

judicialmind/legal-training-dataset

收藏
Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/judicialmind/legal-training-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
JudicialMind法律训练数据集是一个大规模、多语言的查询-段落语料库,旨在训练和评估法律信息检索和问答系统。该数据集包含369万条带注释的查询-段落对,涵盖35种语言,涉及亚洲、欧洲、北美、南美和大洋洲的法律体系。数据集由264个parquet文件组成,磁盘占用约2.6 GB,并采用文件级的A/B/C桶分割以实现清晰的训练/验证/测试分区。每条记录包含丰富的元数据,如查询类型、法律领域、难度、司法管辖区、令牌计数等。该数据集适用于训练密集检索模型、重排交叉编码器、多语言法律问答LLM,以及评估法律用途的RAG流程。

The JudicialMind Legal Training Dataset is a large-scale, multilingual query–passage corpus for training and evaluating legal information-retrieval and question-answering systems. It includes 3.69 million annotated query–passage pairs across 35 languages spanning Asia, Europe, North & South America, and Oceania. The dataset consists of 264 parquet files, totaling ~2.6 GB on disk, with a file-level A / B / C bucket split for clean train / validation / test partitioning. Each row features rich metadata such as query_type, legal_domain, difficulty, jurisdiction, token_count, etc. This dataset is suitable for fine-tuning dense retrievers, reranker cross-encoders, multilingual legal-QA LLMs, and benchmarking RAG pipelines for legal use-cases.
提供机构:
judicialmind
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作