Massive Legal Embedding Benchmark (MLEB)

Name: Massive Legal Embedding Benchmark (MLEB)
Creator: 斯坦福大学
Published: 2025-10-22 16:38:44
License: 暂无描述

arXiv2025-10-22 更新2025-10-24 收录

下载链接：

https://huggingface.co/datasets/mteb/AILA_casedocs

下载链接

链接失效反馈

官方服务：

资源简介：

MLEB是目前最大的、最多样化的、最全面的开放源代码法律信息检索基准。它由十个专家标注的数据集组成，涵盖了多个司法管辖区（美国、英国、欧盟、澳大利亚、爱尔兰和新加坡）、文件类型（案件、立法、监管指南、合同和文献）以及任务类型（搜索、零样本分类和问答）。MLEB旨在解决现有法律信息检索基准在质量、规模和多样性方面的局限性，为法律技术行业提供更具挑战性和实用性的评估工具。

MLEB is currently the largest, most diverse, and most comprehensive open-source legal information retrieval benchmark. It consists of ten expert-annotated datasets, covering multiple jurisdictions (the United States, the United Kingdom, the European Union, Australia, Ireland, and Singapore), document types (cases, legislation, regulatory guidelines, contracts, and scholarly literature), as well as task types (search, zero-shot classification, and question answering). MLEB aims to address the limitations of existing legal information retrieval benchmarks in terms of quality, scale, and diversity, providing the legal technology industry with more challenging and practical evaluation tools.

提供机构：

斯坦福大学

创建时间：

2025-10-22

原始信息汇总

AILACasedocs 数据集概述

基本信息

数据集名称：AILACasedocs
任务类别：文本检索
任务子类：文档检索
语言：英语
多语言性：单语言
领域：法律、书面文本
许可证：CC-BY-4.0
注释来源：衍生

数据集结构

配置说明

default配置：包含查询-文档相关性评分
corpus配置：包含文档语料库
queries配置：包含查询集合

数据特征

default配置：

query-id：字符串类型
corpus-id：字符串类型
score：浮点数类型

corpus配置：

_id：字符串类型
title：字符串类型
text：字符串类型

queries配置：

_id：字符串类型
text：字符串类型

数据统计

测试集统计

总样本数：236
文档总数：186
查询总数：50
相关文档对：195

文档特征

文档长度范围：1,014 - 222,891字符
平均文档长度：26,949.34字符
唯一文档数：186

查询特征

查询长度范围：1,174 - 5,936字符
平均查询长度：3,038.42字符
唯一查询数：50

任务描述

该数据集的任务是根据提供的查询描述，检索最匹配或最相关的案例文档。

评估方法

可通过MTEB框架评估嵌入模型在此数据集上的性能。

引用信息

数据集引用： Paheli Bhattacharya等（2020）AILA 2019 Precedent & Statute Retrieval Task

基准引用：

Enevoldsen等（2025）MMTEB: Massive Multilingual Text Embedding Benchmark
Muennighoff等（2022）MTEB: Massive Text Embedding Benchmark

搜集汇总

数据集介绍

构建方式

在构建大规模法律嵌入基准数据集时，研究团队采用了多维度构建策略。该数据集整合了十个专家标注的子数据集，其中七个为全新构建，覆盖美国、英国、欧盟、澳大利亚、爱尔兰和新加坡等多个司法管辖区。构建过程中，团队通过专业法律知识对数据进行精确标注，采用Inscriptis工具进行文本转换，运用simhash算法去除近似重复内容，并通过复杂正则表达式模式提取关键法律要素。对于新加坡司法关键词等数据集，直接采用法律专家创建的真实世界标注，确保了数据的专业性和权威性。

特点

该数据集展现出显著的全面性与专业性特征。其覆盖范围横跨司法、监管和合同三大法律领域，包含案例法、立法、监管指南、合同和法律文献五种文档类型。数据集特别强调法律推理能力的评估，既包含需要词汇分析的基础任务，也设置了需要深度法律知识的复杂推理任务。不同于以往以美国为中心的法律数据集，MLEB实现了真正的多司法管辖区覆盖，每个子数据集都经过严格的质量控制，确保标注准确性和任务实用性，为法律信息检索提供了前所未有的评估广度。

使用方法

在法律信息检索领域，该数据集提供了标准化的评估框架。研究人员可通过Hugging Face平台获取全部十个子数据集，使用配套的开源评估代码进行模型测试。数据集支持检索、零样本分类和问答三种任务类型的评估，采用NDCG@10作为核心评价指标。使用时应按照真实场景设置批量大小，文档批量设为16，查询批量设为1，以确保评估结果反映实际应用效果。数据集设计充分考虑了法律专业知识的复杂性，能够有效测试嵌入模型在法律概念理解和推理能力方面的表现。

背景与挑战

背景概述

法律信息检索领域长期面临嵌入模型评估标准缺失的困境，现有基准如LegalBench-RAG和MTEB-Legal存在覆盖面狭窄、标注质量参差等问题。2025年由Isaacus研究团队发布的MLEB基准，通过整合六大司法管辖区（美、英、欧盟、澳大利亚、爱尔兰、新加坡）的十组专家标注数据集，构建了涵盖判例法、立法文书、监管指南等多元法律文本的评估体系。该基准首次系统化解决了法律嵌入模型在跨域泛化性与专业推理能力验证方面的需求，为法律科技领域的检索增强生成技术提供了标准化评估框架。

当前挑战

构建过程需攻克多司法管辖区法律文本的结构化差异，例如新加坡判例关键词与欧盟GDPR裁决书的事实-结论对应关系需通过正则表达式与领域专家协同标注实现。在领域问题层面，基准需应对法律检索特有的概念抽象性挑战，如判例摘要要求模型捕捉未明示的法律原则，合同条款检索需区分语义相近的法律概念。现有模型在司法领域的平均NDCG@10得分（82.96）显著低于监管领域（91.48），揭示出法律推理任务对专业知识的深度依赖。

常用场景

经典使用场景

在法律信息检索领域，MLEB数据集通过整合十个专家标注的子集，覆盖美国、英国、欧盟等多法域的司法判例、法规条文及合同文本，为嵌入模型提供标准化评估框架。其典型应用包括测试模型在检索增强生成系统中匹配法律文档与查询的效能，例如将最高法院问题与相关判例关联，或从税收指南中定位具体条款，有效衡量模型对复杂法律概念的理解能力。

衍生相关工作

基于MLEB的评估框架，多项经典研究得以深化法律嵌入模型的优化方向。Isaacus公司的Kanon 2 Embedder通过预训练法律文档在该基准中取得领先性能，验证了领域自适应策略的有效性；Voyage系列模型则进一步探索了多法域泛化能力。这些工作催生了针对司法判例语义解析、跨法系条款比对等细分任务的新方法，持续拓展法律智能的技术边界。

数据集最近研究