five

Massive Legal Embedding Benchmark (MLEB)

收藏
arXiv2025-10-22 更新2025-10-24 收录
下载链接:
https://huggingface.co/datasets/mteb/AILA_casedocs
下载链接
链接失效反馈
官方服务:
资源简介:
MLEB是目前最大的、最多样化的、最全面的开放源代码法律信息检索基准。它由十个专家标注的数据集组成,涵盖了多个司法管辖区(美国、英国、欧盟、澳大利亚、爱尔兰和新加坡)、文件类型(案件、立法、监管指南、合同和文献)以及任务类型(搜索、零样本分类和问答)。MLEB旨在解决现有法律信息检索基准在质量、规模和多样性方面的局限性,为法律技术行业提供更具挑战性和实用性的评估工具。

MLEB is currently the largest, most diverse, and most comprehensive open-source legal information retrieval benchmark. It consists of ten expert-annotated datasets, covering multiple jurisdictions (the United States, the United Kingdom, the European Union, Australia, Ireland, and Singapore), document types (cases, legislation, regulatory guidelines, contracts, and scholarly literature), as well as task types (search, zero-shot classification, and question answering). MLEB aims to address the limitations of existing legal information retrieval benchmarks in terms of quality, scale, and diversity, providing the legal technology industry with more challenging and practical evaluation tools.
提供机构:
斯坦福大学
创建时间:
2025-10-22
原始信息汇总

AILACasedocs 数据集概述

基本信息

  • 数据集名称:AILACasedocs
  • 任务类别:文本检索
  • 任务子类:文档检索
  • 语言:英语
  • 多语言性:单语言
  • 领域:法律、书面文本
  • 许可证:CC-BY-4.0
  • 注释来源:衍生

数据集结构

配置说明

  • default配置:包含查询-文档相关性评分
  • corpus配置:包含文档语料库
  • queries配置:包含查询集合

数据特征

default配置

  • query-id:字符串类型
  • corpus-id:字符串类型
  • score:浮点数类型

corpus配置

  • _id:字符串类型
  • title:字符串类型
  • text:字符串类型

queries配置

  • _id:字符串类型
  • text:字符串类型

数据统计

测试集统计

  • 总样本数:236
  • 文档总数:186
  • 查询总数:50
  • 相关文档对:195

文档特征

  • 文档长度范围:1,014 - 222,891字符
  • 平均文档长度:26,949.34字符
  • 唯一文档数:186

查询特征

  • 查询长度范围:1,174 - 5,936字符
  • 平均查询长度:3,038.42字符
  • 唯一查询数:50

相关性统计

  • 每查询相关文档数范围:1-22
  • 平均每查询相关文档数:3.9
  • 唯一相关文档数:186

任务描述

该数据集的任务是根据提供的查询描述,检索最匹配或最相关的案例文档。

评估方法

可通过MTEB框架评估嵌入模型在此数据集上的性能。

引用信息

数据集引用: Paheli Bhattacharya等(2020)AILA 2019 Precedent & Statute Retrieval Task

基准引用

  • Enevoldsen等(2025)MMTEB: Massive Multilingual Text Embedding Benchmark
  • Muennighoff等(2022)MTEB: Massive Text Embedding Benchmark
搜集汇总
数据集介绍
main_image_url
构建方式
在构建大规模法律嵌入基准数据集时,研究团队采用了多维度构建策略。该数据集整合了十个专家标注的子数据集,其中七个为全新构建,覆盖美国、英国、欧盟、澳大利亚、爱尔兰和新加坡等多个司法管辖区。构建过程中,团队通过专业法律知识对数据进行精确标注,采用Inscriptis工具进行文本转换,运用simhash算法去除近似重复内容,并通过复杂正则表达式模式提取关键法律要素。对于新加坡司法关键词等数据集,直接采用法律专家创建的真实世界标注,确保了数据的专业性和权威性。
特点
该数据集展现出显著的全面性与专业性特征。其覆盖范围横跨司法、监管和合同三大法律领域,包含案例法、立法、监管指南、合同和法律文献五种文档类型。数据集特别强调法律推理能力的评估,既包含需要词汇分析的基础任务,也设置了需要深度法律知识的复杂推理任务。不同于以往以美国为中心的法律数据集,MLEB实现了真正的多司法管辖区覆盖,每个子数据集都经过严格的质量控制,确保标注准确性和任务实用性,为法律信息检索提供了前所未有的评估广度。
使用方法
在法律信息检索领域,该数据集提供了标准化的评估框架。研究人员可通过Hugging Face平台获取全部十个子数据集,使用配套的开源评估代码进行模型测试。数据集支持检索、零样本分类和问答三种任务类型的评估,采用NDCG@10作为核心评价指标。使用时应按照真实场景设置批量大小,文档批量设为16,查询批量设为1,以确保评估结果反映实际应用效果。数据集设计充分考虑了法律专业知识的复杂性,能够有效测试嵌入模型在法律概念理解和推理能力方面的表现。
背景与挑战
背景概述
法律信息检索领域长期面临嵌入模型评估标准缺失的困境,现有基准如LegalBench-RAG和MTEB-Legal存在覆盖面狭窄、标注质量参差等问题。2025年由Isaacus研究团队发布的MLEB基准,通过整合六大司法管辖区(美、英、欧盟、澳大利亚、爱尔兰、新加坡)的十组专家标注数据集,构建了涵盖判例法、立法文书、监管指南等多元法律文本的评估体系。该基准首次系统化解决了法律嵌入模型在跨域泛化性与专业推理能力验证方面的需求,为法律科技领域的检索增强生成技术提供了标准化评估框架。
当前挑战
构建过程需攻克多司法管辖区法律文本的结构化差异,例如新加坡判例关键词与欧盟GDPR裁决书的事实-结论对应关系需通过正则表达式与领域专家协同标注实现。在领域问题层面,基准需应对法律检索特有的概念抽象性挑战,如判例摘要要求模型捕捉未明示的法律原则,合同条款检索需区分语义相近的法律概念。现有模型在司法领域的平均NDCG@10得分(82.96)显著低于监管领域(91.48),揭示出法律推理任务对专业知识的深度依赖。
常用场景
经典使用场景
在法律信息检索领域,MLEB数据集通过整合十个专家标注的子集,覆盖美国、英国、欧盟等多法域的司法判例、法规条文及合同文本,为嵌入模型提供标准化评估框架。其典型应用包括测试模型在检索增强生成系统中匹配法律文档与查询的效能,例如将最高法院问题与相关判例关联,或从税收指南中定位具体条款,有效衡量模型对复杂法律概念的理解能力。
衍生相关工作
基于MLEB的评估框架,多项经典研究得以深化法律嵌入模型的优化方向。Isaacus公司的Kanon 2 Embedder通过预训练法律文档在该基准中取得领先性能,验证了领域自适应策略的有效性;Voyage系列模型则进一步探索了多法域泛化能力。这些工作催生了针对司法判例语义解析、跨法系条款比对等细分任务的新方法,持续拓展法律智能的技术边界。
数据集最近研究
最新研究方向
在法律信息检索领域,MLEB数据集正推动嵌入模型向多法域适应性与专业推理能力的前沿探索。其覆盖六大司法管辖区与五类法律文本的架构,突破了传统基准局限于美国合同法范畴的桎梏,促使研究者关注跨法系语义对齐与领域自适应技术。当前研究热点集中于法律领域专用嵌入模型的优化,如Kanon 2 Embedder通过法律文本预训练与微调实现的性能突破,揭示了通用模型在法律复杂推理任务中的局限性。该基准通过引入新加坡判例关键词、欧盟GDPR裁决等七项新型数据集,为评估模型对判例原则抽象理解、法规跨域关联等核心法律能力提供了新范式,显著提升了检索增强生成系统在实务场景中的可靠性。
相关研究论文
  • 1
    The Massive Legal Embedding Benchmark (MLEB)斯坦福大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作