mteb/AILA_statutes

Name: mteb/AILA_statutes
Creator: mteb
Published: 2025-05-04 16:09:36
License: 暂无描述

Hugging Face2025-05-04 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/mteb/AILA_statutes

下载链接

链接失效反馈

官方服务：

资源简介：

AILA_statutes数据集专为文档检索任务设计，旨在识别特定情况下最相关的法规。数据集包含50个查询，每个查询描述一个特定情况，以及包含法规标题和描述的语料库集。此外，数据集还提供了一个默认配置，用于评估查询与文档之间的相关性。

提供机构：

mteb

原始信息汇总

数据集概述

基本信息

语言: 英语
多语言性: 单语种
任务类别: 文本检索
任务ID: 文档检索
配置名称: corpus
标签: 文本检索

数据集配置

默认配置:
- 特征:
  - query-id: 字符串
  - corpus-id: 字符串
  - score: 浮点数
- 分割:
  - test: 217个样本
corpus配置:
- 特征:
  - _id: 字符串
  - title: 字符串
  - text: 字符串
- 分割:
  - corpus: 82个样本
queries配置:
- 特征:
  - _id: 字符串
  - text: 字符串
- 分割:
  - queries: 50个样本

数据文件

默认配置:
- test: qrels/test.jsonl
corpus配置:
- corpus: corpus.jsonl
queries配置:
- queries: queries.jsonl

数据集用途

用于识别给定情况下最相关的法规。
查询集包含50个查询，每个查询描述一个特定情况。
文集包含法规的标题和描述。

搜集汇总

数据集介绍

构建方式

在法律文本检索领域，AILAStatutes数据集通过系统化流程构建而成。其源数据源自AILA 2019先例与法规检索任务，经规范化处理后形成结构化基准。该数据集采用三元组架构，包含法规条文语料库、查询文本集及关联评分文件。构建过程中对原始法律文档进行清洗与标准化，确保文本质量与格式统一，最终形成包含82条法规条文和50个查询的英文单语数据集。

特点

该数据集在法学信息检索领域展现出鲜明的专业特征。其查询文本平均长度达3038字符，远超常规检索任务，完整保留了法律案例的复杂叙述结构。每条查询平均关联4.34个相关法规条文，呈现一对多的匹配关系，精准模拟了法律实务中多法规适用的真实场景。数据集采用精确的评分机制，为检索模型提供了细粒度的相关性评估标准，充分体现了法律文本检索任务的特殊性与挑战性。

使用方法

在嵌入模型评估实践中，该数据集通过MTEB框架实现标准化评测。研究人员需导入mteb库并调用get_tasks方法加载AILAStatutes任务，继而实例化评估器并运行目标模型。数据集提供corpus、queries、default三种配置，分别对应法规条文、查询文本和关联评分数据。评估过程自动计算检索性能指标，为法律领域文本嵌入模型的比较研究提供可靠基准，支持法学人工智能技术的迭代发展。

背景与挑战

背景概述

在自然语言处理与法律信息检索的交叉领域，AILAStatutes数据集于2020年由Paheli Bhattacharya、Kripabandhu Ghosh等学者联合发布，并整合于大规模文本嵌入基准（MTEB）框架之中。该数据集源自AILA 2019先例与法规检索任务，旨在应对法律领域内高效、精准的法规条文检索需求。其核心研究问题聚焦于如何通过计算模型，从结构化法律文本语料中，为给定的复杂法律情境匹配最相关的成文法条款。该资源的建立，为评估与推进文本嵌入模型在法律专业领域的适用性提供了标准化基准，对提升法律智能系统的实用性与可靠性具有显著影响力。

当前挑战

该数据集致力于解决法律文本检索这一特定领域问题的挑战，其核心在于处理法律语言的复杂性、高度专业化术语以及条文间错综复杂的逻辑关联，要求模型不仅理解表面语义，还需把握深层的法律逻辑与意图。在构建过程中，挑战主要源于高质量标注数据的获取与处理，包括从真实法律案例中提炼代表性查询、确保法规语料的权威性与完整性，以及进行精确且一致的相关性人工标注，这些步骤均需深厚的领域专业知识支撑，并需克服法律文本固有的冗长性与结构性差异。

常用场景

经典使用场景

在法律信息检索领域，AILAStatutes数据集为评估文本嵌入模型在法规检索任务中的性能提供了标准化的测试平台。该数据集通过模拟真实的法律咨询场景，要求模型根据给定的案情描述，从一系列成文法规中精准定位最相关的法律条文。这种检索任务不仅考验模型对法律文本语义的理解深度，还要求其能够捕捉案情与法规之间复杂的逻辑关联，从而为法律智能系统的开发奠定基础。

解决学术问题

该数据集有效应对了法律文本检索中语义匹配精度不足的学术挑战。传统基于关键词的检索方法难以处理法律条文与案情描述之间存在的表述差异和隐含逻辑，而AILAStatutes通过构建高质量的查询-法规对，促进了深度语义嵌入模型在法律领域的应用研究。它推动了跨文档语义关联、细粒度文本匹配等核心问题的探索，为提升法律信息系统的智能化水平提供了关键的数据支撑。

衍生相关工作

围绕AILAStatutes数据集，学术界衍生出一系列聚焦于法律文本嵌入与检索的经典研究。这些工作不仅深入探索了领域自适应预训练、跨模态法律信息融合等技术路径，还催生了针对法律长文档处理的专用模型架构。相关成果进一步丰富了大规模文本嵌入基准（MTEB）的评估体系，并为后续如MMTEB等多语言法律检索基准的构建提供了重要的方法论借鉴与数据范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集