pile-of-law

Hugging Face2025-06-17 更新2025-06-19 收录

下载链接：

https://huggingface.co/datasets/SKIML-ICL/pile-of-law

下载链接

链接失效反馈

官方服务：

资源简介：

pile-of-law是一个大规模收集和整理的法律和行政文档语料库，大小约为256G，包含开源的英语法律和行政资料，如判决书、合同、行政法规、法律、考试大纲等。从35个子集中选取了与问答相关性较大的8个子集，总大小约为120G，包括美国法庭意见、开放版权的教育案例书、网上公开的律师考试大纲、美国法典、美国联邦法规、美国联邦民事诉讼规则、美国联邦证据规则以及世界各国的宪法。

创建时间：

2025-06-16

搜集汇总

数据集介绍

构建方式

在法学信息数字化进程加速的背景下，pile-of-law数据集通过系统整合开源法律文献构建而成。该数据集精选了英语国家具有代表性的法律行政文书，涵盖256GB原始数据，采用分层抽样策略从35个子集中筛选出8个核心类别，包括美国法院判例、教育案例集、律师考试大纲等典型法律文本，数据截止至2022年底确保时效性。

使用方法

针对法律人工智能研究的特殊需求，该数据集支持多种应用场景。研究者可依据子集标签直接调用特定法律领域的文本，如courtlistener_opinions子集适用于判例分析模型训练，uscode子集则适合法律条文理解研究。建议配合法律领域预训练模型进行微调，或作为检索增强生成系统的专业知识库。

背景与挑战

背景概述

Pile-of-Law数据集是近年来法律与行政文档处理领域的重要资源，由研究团队大规模收集整理而成。该数据集涵盖了英语国家丰富的法律文献，包括法院判决书、合同文本、行政法规、法典条文以及律师资格考试大纲等多种类型，总规模约256GB。其核心价值在于为法律文本挖掘、司法决策支持系统以及法律人工智能研究提供了高质量的语料基础。35个子集中精选的8个主要子集尤其注重问答相关性，反映了研究者对法律知识结构化与智能应用的深度考量。

当前挑战

该数据集面临的首要挑战在于法律文本特有的复杂性，包括专业术语密集、逻辑结构严谨以及跨司法管辖区差异显著等特点，这对自然语言处理模型的理解能力提出了极高要求。构建过程中的技术难点体现在多源异构数据的标准化处理，如不同司法辖区的文书格式统一、历史文本的数字化噪声消除等。同时，法律语料涉及的隐私伦理问题也使得数据脱敏与版权合规成为不可忽视的挑战，特别是在处理敏感案例和未公开文件时需格外谨慎。

常用场景

经典使用场景

在法学与计算语言学的交叉领域，pile-of-law数据集为研究者提供了丰富的法律文本资源。其经典使用场景包括训练法律领域的自然语言处理模型，特别是针对法律文本分类、实体识别和问答系统等任务。通过整合判例法、法规和宪法等多样化的法律文本，该数据集为模型理解复杂的法律语言结构提供了坚实基础。

解决学术问题

该数据集有效解决了法律文本挖掘中的关键学术挑战。针对法律术语的高专业性、文本结构的复杂性以及跨司法管辖区差异等问题，研究者可利用其大规模标注数据开发更精准的法律信息提取算法。尤其在判例法分析领域，数据集提供的丰富案例支持了法律推理模式识别和判决预测等前沿研究方向。

实际应用

在法律科技领域，该数据集支撑了多项实际应用系统的开发。基于其构建的法律智能助手能够解析复杂法规条款，为律师提供案例检索支持；教育机构利用其中的考试大纲和案例教材开发智能化法律培训工具；政府部门则借助其标准化的法律文本改进法规检索系统的语义理解能力。

数据集最近研究