courtlistener

Hugging Face2025-12-06 更新2025-12-07 收录

下载链接：

https://huggingface.co/datasets/drengskapur/courtlistener

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个CourtListener批量数据的公开镜像数据集，已转换为Parquet格式以便高效查询和机器学习工作流。数据集包含多个配置，如法院元数据（700+法院）、意见集群（案例元数据和摘要，约9M行）、完整意见文本（约9M行）、RECAP摘要元数据（约20M行）、引用参考（约50M行）、引用图边（约50M行）、法院撰写的案例摘要（约10M行）、法官信息（约16K行）、法官职位（约30K行）、法官财务披露（约1.7M行）、口头辩论元数据（约200K行）和FJC联邦案例数据（约8M行）。数据集来源于CourtListener，由Free Law Project提供，采用公共领域奉献和许可证（PDDL）。

创建时间：

2025-12-06

原始信息汇总

CourtListener数据集概述

数据集基本信息

数据集名称: CourtListener Bulk Data
托管地址: https://huggingface.co/datasets/drengskapur/courtlistener
数据来源: CourtListener (https://www.courtlistener.com/) 批量数据，由Free Law Project (https://free.law/) 提供
许可协议: Public Domain Dedication and License (PDDL)
主要任务: 文本生成、问答
语言: 英语
数据规模: 1M < n < 10M
领域标签: 法律、法院意见、判例法、courtlistener、pacer、recap

数据配置与内容

数据集包含多个配置，每个配置对应不同的数据子集，均以Parquet格式存储。

配置名称	描述	数据量
`opinion-clusters`	案件元数据和摘要	约900万行
`opinions`	完整的意见书文本	约900万行
`courts`	法院元数据（700多个法院）	约700行
`dockets`	RECAP案件摘要元数据	约2000万行
`citations`	引用参考文献	约5000万行
`citation-map`	引用图谱边	约5000万行
`parentheticals`	法院撰写的案件摘要	约1000万行
`people-db-people`	法官信息	约1.6万行
`people-db-positions`	法官职位信息	约3万行
`financial-disclosures`	法官财务披露信息	约170万行
`oral-arguments`	口头辩论元数据	约20万行
`fjc-integrated-database`	联邦司法中心综合数据库案件数据	约800万行

数据访问方式

通过Hugging Face `datasets`库加载

python from datasets import load_dataset cases = load_dataset("drengskapur/courtlistener", "opinion-clusters", split="train") courts = load_dataset("drengskapur/courtlistener", "courts", split="train")

通过HuggingFace Datasets Server API访问（无需下载）

获取行数据: https://datasets-server.huggingface.co/rows?dataset=drengskapur/courtlistener&config=courts&split=train&length=10
全文搜索: https://datasets-server.huggingface.co/search?dataset=drengskapur/courtlistener&config=opinion-clusters&split=train&query=qualified%20immunity
SQL式过滤: https://datasets-server.huggingface.co/filter?dataset=drengskapur/courtlistener&config=courts&split=train&where=jurisdiction=F

通过DuckDB查询（无需下载）

sql INSTALL httpfs; LOAD httpfs; SELECT case_name, date_filed, citation_count FROM hf://datasets/drengskapur/courtlistener/data/opinion-clusters/*.parquet WHERE court_id = scotus ORDER BY citation_count DESC LIMIT 10;

搜集汇总

数据集介绍

构建方式

在法学信息数字化浪潮中，CourtListener数据集通过系统化整合美国司法公开数据构建而成。其核心数据源自CourtListener平台与Free Law Project，并整合了PACER与RECAP系统的法庭记录。构建过程涉及对海量原始法律文档的自动化采集、清洗与结构化转换，最终将不同实体——如案件、法庭、法官、引用关系等——组织成多个独立的Parquet格式配置文件，确保了数据的完整性与可扩展性。

特点

该数据集以其宏大的规模与精细的结构著称，涵盖了超过900万份法律意见全文、5000万条引用关系以及丰富的元数据。其显著特点在于多维度配置设计，不仅包含案件簇与法律意见文本，还扩展至法庭信息、法官背景、财务披露及口头辩论记录等多个关联领域，形成了一个互联的法律知识图谱。这种设计为研究者提供了从微观文本分析到宏观司法网络研究的全面视角。

使用方法

为便利学术研究与机器学习应用，该数据集支持多种高效的访问范式。用户可通过Hugging Face Datasets库直接加载特定配置，或利用其服务器API进行远程全文检索与SQL式过滤。此外，数据集兼容DuckDB等分析引擎，支持用户通过标准SQL语句直接查询云端Parquet文件，无需完整下载，极大地降低了大规模法律数据分析的技术门槛与计算成本。

背景与挑战

背景概述

CourtListener数据集由Free Law Project于2010年前后创建，旨在构建一个全面、开放的法律判例与法院文件资源库。该数据集汇聚了来自美国联邦与州级法院的数百万份法律意见、案件摘要、引用网络及法官信息，核心研究问题聚焦于如何利用大规模法律文本推动计算法学、自然语言处理及法律信息检索的发展。通过整合多元化的法律文档，CourtListener为法律智能分析、先例挖掘及司法预测模型提供了关键数据基础，显著促进了法律科技与人工智能交叉领域的学术研究与实际应用。

当前挑战

CourtListener数据集致力于解决法律领域复杂的信息提取与知识推理挑战，例如从非结构化法律文本中自动识别法律实体、构建判例引用网络以及预测司法裁决趋势。在构建过程中，数据集面临多重技术障碍，包括法律术语的高度专业性、文档格式的异构性以及数据来源的分散性。此外，确保数百万份法律文件的完整性、时效性与可访问性，同时维护数据隐私与版权合规，亦是数据集持续更新与扩展中的核心难题。

常用场景

经典使用场景

在计算法学领域，CourtListener数据集常被用于法律文本的自然语言处理任务，如案例摘要生成和法律问答系统。该数据集包含数百万份美国法院意见书、引用网络和元数据，为研究者提供了丰富的结构化法律文本资源。通过利用这些数据，可以训练模型自动提取案例关键信息，分析法律论证模式，并支持对判例法的深入语义理解，从而推动法律智能应用的发展。

衍生相关工作

围绕CourtListener数据集，衍生了一系列经典研究工作，包括基于深度学习的法律文本分类、引用网络分析和司法结果预测模型。例如，研究者利用该数据训练BERT变体以提升法律文档的语义表示能力，开发图神经网络来揭示案例间的引用动态，并构建预测最高法院判决结果的系统。这些工作不仅推动了法律人工智能的技术前沿，也为政策制定和司法改革提供了实证依据。

数据集最近研究