IL-PCSR
收藏arXiv2025-11-01 更新2025-11-07 收录
下载链接:
https://huggingface.co/datasets/Exploration-Lab/IL-PCSR
下载链接
链接失效反馈官方服务:
资源简介:
IL-PCSR是一个为印度法律领域量身定制的语料库,旨在解决法律案件中的法律条文检索和先前案例检索问题。该数据集包含6271个案例判决文档、936个法律条文和3183个先前案例,涵盖13个广泛的法律领域。数据集的构建过程涉及从印度Kanoon平台收集20,000份公开可用的英语案例判决书,并通过匿名化处理和事件掩码来防止模型与法律条文和案例标题相关联。IL-PCSR是第一个支持对同一查询并行识别相关法律条文和先前案例的数据集,为法律领域的信息检索模型开发提供了一个共同测试平台。
IL-PCSR is a corpus tailored specifically for the Indian legal domain, developed to address the core challenges of legal provision retrieval and prior case retrieval in legal cases. This dataset contains 6,271 case judgment documents, 936 legal provisions, and 3,183 prior cases, covering 13 broad legal fields. The construction of this dataset involves collecting 20,000 publicly available English case judgments from the Indian Kanoon platform, and applying anonymization and event masking techniques to prevent the model from associating with legal provisions and case titles. IL-PCSR is the first dataset that supports parallel identification of relevant legal provisions and prior cases for the same query, serving as a common testbed for the development of information retrieval models in the legal domain.
提供机构:
印度理工学院,卡纳普尔分校
创建时间:
2025-11-01
搜集汇总
数据集介绍

构建方式
在印度法律领域日益增长的数字化需求背景下,IL-PCSR数据集通过系统化流程构建而成。研究团队从IndianKanoon法律搜索引擎采集了20,000份公开的英文判例文书,经过严格的文本清洗和长度筛选,最终保留18,000份核心文档。通过提取高频引用的法律条文和先例案例,形成了包含936部法规条文和3,183个先例案例的候选池,并基于引用关系构建了6,271个查询案例。为确保模型泛化能力,数据集中特意保留了19个未被引用的法规和93个未被引用的先例,以及20个仅出现在测试集的法规和88个仅出现在测试集的先例。
特点
该数据集最显著的特征在于首次实现了法规检索与先例检索的并行化架构。其候选池覆盖印度中央政府的92部联邦法案,时间跨度从1950年至2019年,确保了法律演变的完整性。数据经过精心设计的匿名化处理,所有法律条文引用和案例名称均被标准化掩码,有效防止模型通过表面特征进行关联。查询案例平均包含3,383个词汇,先例案例平均达7,485个词汇,充分体现了法律文档的复杂性。数据分布涵盖劳动法、刑法、税法等13个法律领域,真实反映了印度司法实践的案件分布格局。
使用方法
在使用该数据集时,研究者可采用多阶段检索框架。首先利用词汇匹配方法如BM25进行初步筛选,再结合语义模型如基于图神经网络的Para-GNN进行深度语义匹配。实验表明,通过动态权重融合词汇与语义特征的集成方法能显著提升性能,其中法规检索更适合语义主导的模型配置,而先例检索则需保留更多词汇特征。进阶使用方法包括构建两阶段大语言模型重排序机制,通过交叉任务条件传递实现法规与先例检索的协同优化。数据已按8:1:1比例划分为训练、验证和测试集,支持端到端的法律检索系统开发。
背景与挑战
背景概述
IL-PCSR数据集于2025年由印度理工学院卡拉格普尔分校与坎普尔分校联合研制,聚焦于法律领域中的先例与法规检索任务。该数据集首次构建了并行测试平台,支持从同一查询案例中同步检索相关法律条文与司法先例,突破了传统研究中两项任务独立处理的局限。其核心研究问题在于探索法律条文检索与先例检索之间的内在关联性,例如相似案件往往引用相近法规的司法实践特性。该数据集涵盖936项印度中央法规与3183个最高法院判例,为计算法学领域提供了首个能够系统性研究法律知识依赖关系的语料资源。
当前挑战
该数据集面临双重挑战:在领域问题层面,法律条文检索需克服法规文本抽象性与专业术语理解障碍,而先例检索则需处理长篇判决文书中的语义稀疏性与精确匹配需求;在构建过程中,需解决司法文书结构化差异导致的标注一致性难题,并通过匿名化处理消除个人身份信息引发的潜在偏见。此外,数据集的构建还需平衡高频引用与长尾案例的覆盖范围,确保模型在真实司法场景中的泛化能力。
常用场景
经典使用场景
在印度法律智能研究领域,IL-PCSR数据集为法律条文检索和先例检索任务提供了统一的实验平台。该数据集通过整合6271个查询案例、936部法律条文和3183个先例判例,构建了首个支持双任务并行研究的法律语料库。其经典应用场景体现在为各类检索模型提供标准化测试环境,包括基于词汇匹配的BM25模型、基于深度学习的语义模型以及图神经网络模型,使研究人员能够系统评估不同方法在法律条文与先例检索中的表现差异。
解决学术问题
该数据集有效解决了法律人工智能领域长期存在的任务割裂问题。传统研究中,法律条文检索与先例检索被视为独立任务,分别采用不同的数据集和模型架构。IL-PCSR通过构建统一框架,首次实现了对两个任务内在关联性的量化研究。实验表明,法律条文检索更依赖语义理解能力,而先例检索则偏重词汇匹配,这种发现为理解法律文本的多维度特性提供了重要理论依据,推动了法律检索模型向更精细化的方向发展。
衍生相关工作
该数据集催生了多项创新性研究,包括基于图神经网络的Event-GNN模型和Para-GNN模型,这些模型通过构建法律文档的图结构实现了更精准的语义匹配。同时,研究者开发了动态加权集成方法,有效融合词汇与语义特征,在两项任务中均取得显著提升。最具突破性的工作是基于大语言模型的重排序框架,通过两阶段提示策略利用任务间依赖关系,在条文检索和先例检索中分别达到46.11%和43.31%的F1分数,确立了法律检索领域的新标杆。
以上内容由遇见数据集搜集并总结生成



