Water Law Judicial Decisions Dataset
收藏github2026-05-09 更新2026-05-11 收录
下载链接:
https://github.com/jrklaus8/water-law-dataset
下载链接
链接失效反馈官方服务:
资源简介:
一个用于构建巴西(27个州法院)、加拿大(通过CanLII的联邦和省级法院)和荷兰(通过Rechtspraak.nl的Raad van State和所有11个地区法院)水法司法决策比较数据集的爬虫集合。范围:2016–2026 | 收集的案件:巴西、加拿大和荷兰共83,596项决策。
This is a crawler collection developed to construct a comparative dataset of water law-related judicial decisions from Brazil (27 state courts), Canada (federal and provincial courts via CanLII), and the Netherlands (the Raad van State and all 11 regional courts via Rechtspraak.nl). Scope: 2016–2026 | Collected decisions: A total of 83,596 judicial decisions across Brazil, Canada and the Netherlands.
创建时间:
2026-04-28
原始信息汇总
水法司法判决数据集 (Water Law Judicial Decisions Dataset)
数据集概览
这是一个跨国的水法司法判决比较数据集,涵盖巴西、加拿大和荷兰三个国家。数据集时间范围为 2016–2026 年,共收集了 83,596 件与水法相关的司法判决。
数据覆盖范围
| 国家 | 收集数量 | 数据来源 |
|---|---|---|
| 巴西 | 11,724 件 | 27 个州法院中的 8 个可访问法院(TJSP、TJSC、TJDFT、TJRJ、TJRR、TJAC、TJPI、TJTO)+ 200 件历史案例(1997–2015) |
| 荷兰 | 68,654 件 | 50,871 件上诉法院(RvS、CBb、GHARL)+ 17,783 件地方法院(全部 11 个 Rechtbanken) |
| 加拿大 | 3,218 件 | 通过 CanLII 关键字搜索 + 额外数据库 + Legal Data Hunter 语义搜索 + 高级/上诉法院 |
数据收集方法
每个国家采用不同的数据抓取策略:
巴西
- 针对 27 个州法院开发单独的抓取器
- 成功访问的法院包括:TJSP、TJSC、TJDFT、TJRJ、TJRR、TJAC、TJPI、TJTO
- 部分法院因 CAPTCHA、技术限制或访问被拒而无法获取数据
加拿大
- 使用 CanLII 公共 API(需免费 API 密钥)进行关键字搜索
- 使用 Legal Data Hunter 进行语义搜索(需 API 密钥),覆盖超过 94,502 份加拿大法律文档
荷兰
- 通过 Rechtspraak.nl 开放数据门户 获取结构化 XML 访问
- 无需身份验证
搜索查询
- 主要查询:
água abastecimento fornecimento saneamento - 次要查询:
corte suspensão fornecimento água - 第三查询:
proteção manancial recursos hídricos ambiental
数据格式与结构
JSON 模式
每个案件记录包含以下字段:
| 字段 | 说明 |
|---|---|
tribunal |
法院名称 |
estado |
州/省代码 |
num_processo |
案件编号 |
data_julgamento |
判决日期 |
ano |
年份 |
classe |
案件类别 |
camara_orgao |
审判庭/机构 |
relator |
报告法官 |
ementa |
判决摘要 |
url |
原文链接 |
输出文件
- 每个抓取器输出为
$OUTPUT_DIR/<court>_cases_2016_2026.json - 可通过合并脚本生成国家级的 CSV/XLSX 文件
可用工具与实用程序
- merge_national.py — 将各法院的 JSON 文件合并为国家级的 CSV/XLSX
- make_progress_charts.py — 生成进度图表
- jurimetric_coding.py — 基于正则表达式的编码引擎(21 个类别,4 种语言:葡萄牙语、英语、荷兰语、法语)
- build_report.py — 生成比较性的 DOCX 报告及 6 张图表
- integrate_dissertation.py — 将数据集发现整合到初步研究 DOCX 中
数据获取与使用
- 数据集可通过 Python 包
water-law-dataset在 PyPI 获取 - 所有抓取器仅使用 Python 标准库(Python 3.8+),无需额外安装依赖
- 许可证: MIT
存档与引用
数据集已存档于多个平台:
- Zenodo:https://doi.org/10.5281/zenodo.19836413
- Harvard Dataverse:https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/C9PEFS
- DANS Data Station SSH:https://ssh.datastations.nl/dataset.xhtml?persistentId=doi:10.17026/SS/RVDBUF
- OSF:https://osf.io/admrq
引用格式: Klaus, C. (2026). Global Water Law Judicial Decisions Dataset (v1.0). Zenodo. https://doi.org/10.5281/zenodo.19836413
法律说明
所有抓取器查询的是公开可访问的判例门户,所有判决均为公开法院记录。本数据集仅供学术比较法研究使用。
搜集汇总
数据集介绍

构建方式
水法司法判决数据集(Water Law Judicial Decisions Dataset)的构建基于系统性网络爬取技术,覆盖巴西27个州法院、加拿大联邦及省级法院(通过CanLII接口)以及荷兰所有11个地方法院及最高行政法院(通过Rechtspraak开放数据)。针对每个法院门户的技术架构差异,分别设计了定制化爬虫,例如巴西TJDFT采用Elasticsearch REST接口,TJSC依赖ESAJ AJAX提交,加拿大CanLII则通过免费API密钥进行关键词检索。数据收集时间跨度设定为2016年至2026年,共采集83,596份判决书,其中巴西11,724例、荷兰68,654例、加拿大3,218例。所有爬虫均基于Python标准库实现,无需额外依赖安装,输出为结构化JSON格式,并最终通过合并脚本生成全国统一的CSV或XLSX文件。
特点
该数据集的核心特点在于其跨国比较维度与多层次检索策略的融合。巴西部分覆盖了来自8个不同法院的判决,并针对每个法院的技术限制(如CAPTCHA阻塞或SPA架构)如实记录了访问状态,体现了对司法数据获取难度的透明化处理。荷兰数据集不仅包含地方法院判决,还囊括了国务委员会、中央上诉委员会等高等专门法院的扩展爬取结果。加拿大部分则创新性地引入了语义搜索引擎Legal Data Hunter,对超过94,502份法律文档进行深层语义检索,弥补了单纯关键词匹配的不足。此外,数据集附带了基于正则表达式的法学计量编码引擎,能够自动对21个类别、4种语言的判决内容进行结构化标注,极大提升了对水法议题中裁决倾向、论证逻辑等要素进行量化分析的可能。
使用方法
使用者可通过克隆GitHub仓库并配置环境变量快速启动爬取流程,所有爬虫均在Python 3.8及以上环境中无需额外安装即可运行。具体执行时,首先在.env文件中设定输出目录与API密钥(如CanLII及Legal Data Hunter的密钥),随后根据需求运行单个巴西州法院爬虫或荷兰全国范围内的数据采集脚本。完成数据收集后,利用merge_national.py工具将多源JSON文件合并为国家层面的CSV或XLSX表格,再通过jurimetric_coding.py对判决文本进行类别编码与语义标注。进阶用户可调用make_progress_charts.py生成可视化图表,或使用build_report.py自动生成包含六种比较图表的DOCX研究报告。全部输出数据均存储在data目录下,并采用统一的JSON Schema,方便跨平台的数据共享与二次分析。
背景与挑战
背景概述
水法律司法判决数据集(Water Law Judicial Decisions Dataset)由Claudio Klaus Junior创建,时间跨度覆盖2016至2026年,旨在系统性地构建一个横跨巴西、加拿大与荷兰三国的水法律司法判决比较数据集。该数据集源自对水治理与司法包容性边界的初步研究,受LaDawn Haglund在水法律与水治理领域开创性工作的启发,聚焦于行政法框架下水资源获取与司法裁决的互动关系。通过整合83,596份判决文书,该数据集为比较法研究提供了前所未有的实证基础,推动了水法律领域从个案分析向大规模计量分析的范式转变,对全球水治理与司法实践的理论探讨具有重要影响力。
当前挑战
该数据集面临的核心挑战在于多源异构司法数据的系统化获取与统一编码。从领域问题看,水法律判决分散于不同法系与司法层级,巴西27个州法院采用各异的门户技术栈(如ESAJ POST、Elasticsearch REST)且部分系统因CAPTCHA、单点登录或无公开API而无法访问,加拿大CanLII和荷兰Rechtspraak.nl虽提供开放数据却依赖关键词匹配与语义搜索的精度。从构建过程看,巴西有19个州法院因技术障碍被阻断,仅成功获取8个法院的11,724例判决;跨语言(葡萄牙语、英语、荷兰语、法语)的21类计量编码引擎需借助正则表达式实现自动化标注,而数据清洗与去重、多平台存档(Zenodo、Harvard Dataverse等)的元数据协调亦构成显著技术壁垒。
常用场景
经典使用场景
在水资源治理与司法能动主义交叉的前沿学术领域,该数据集为跨国比较水法判例研究提供了宝贵的实证基础。其经典使用场景在于构建横跨巴西、加拿大与荷兰三个司法管辖区的水资源司法裁决语料库,研究者能够通过统一架构下的83,596份判决书,系统分析不同法律传统下法院对水权、供水中断、卫生服务等议题的裁判逻辑。借助内置的跨语言法计量编码引擎,学者得以在葡萄牙语、英语、荷兰语与法语四种语言间实现21个法律类别的自动归类,从而精准追踪司法包容性的制度边界与行政法的实施效能。这一数据基础设施尤其适合检验司法决策如何在不同政治生态中回应水资源的可及性与公平分配问题。
解决学术问题
该数据集直面比较水资源法研究中长期存在的数据碎片化与语言壁垒两大核心困境。以往跨国水法判例分析常受限于单一国家的司法文本获取难度,且多语种判决书的统一标注与定量分析几无可能。通过系统爬取巴西27个州法院、加拿大联邦与省级法院以及荷兰各级行政与地区法院的公开裁判文书,研究得以首次在同一分析框架下揭示不同法域在水资源分配、供应中断与环境保护等关键纠纷中的裁判模式差异。该工作不仅填补了全球南方与北方在水资源司法治理比较维度上的实证空白,更以83,596份判例的宏大样本为检验法律现实主义理论假设提供了坚实数据支撑,深刻影响了环境法社会学与司法行为分析的学术走向。
衍生相关工作
该数据集已然催生了一系列具有理论深度与方法论创新的衍生研究。初步研究《法律最后一英里》直接基于此数据集撰文,深入考察了行政法、水资源可及性与司法包容性在巴西、荷兰与加拿大的制度边界。在技术层面,基于正则表达式的跨语言法计量编码引擎被独立复用至其他国家的水资源判例分析中,推动了多语种法律文本的自动化标注方法论进步。此外,针对巴西法院爬取过程中遭遇的多样化技术障碍——如CAPTCHA验证、SPA架构反爬与身份认证系统封锁——所催生的自适应爬虫策略文档,已成为法律科技领域应对碎片化司法公开基础设施的实践指南。该数据集的沉积与演进还激励了学界对水法判例的时间序列分析,例如巴西圣保罗州跨越1997至2015年的历史判例编码,为研究水权司法化的长期制度演变提供了不可多得的纵向数据源。
以上内容由遇见数据集搜集并总结生成



