gov-library

Hugging Face2026-01-25 更新2026-01-26 收录

下载链接：

https://huggingface.co/datasets/bettergovph/gov-library

下载链接

链接失效反馈

官方服务：

资源简介：

菲律宾法律文件数据集是一个全面的菲律宾法律文件集合，来自Lawphil.net，从HTML提取为Markdown格式并组织以便于查询。该数据集包含114,340份法律文件，时间跨度为1900年至2025年，包括：- **判例法**（68,080份文件）- 最高法院的判决；- **法规**（19,793份文件）- 共和国法案、联邦法案、总统令等；- **行政文件**（26,458份文件）- 行政命令、行政令、备忘录令等；- **宪法**（9份文件）- 不同时期的菲律宾宪法。

创建时间：

2026-01-23

原始信息汇总

菲律宾法律文件数据集概述

数据集基本信息

数据集名称：Philippine Legal Documents Dataset
数据总量：114,340 份文档
时间跨度：1900年至2025年
文件大小：753 MB（整合后的parquet文件）
数据格式：Parquet
许可协议：知识共享署名-非商业性使用 4.0（原始文档）

数据内容与分类

数据集包含菲律宾法律文件，涵盖四大类别：

1. 判例法

数量：68,080 份文档
描述：最高法院判决与判例
来源标识：juris
年份范围：1901-2025

2. 制定法

数量：19,793 份文档
描述：立法法案与法规
包含来源：
- acts：菲律宾委员会/议会法案（1900-1935，4,257份）
- repacts：共和国法案（1946-2025，12,071份）
- comacts：联邦法案（1935-1946，733份）
- bataspam：国家法律（1978-1994，887份）
- presdecs：总统法令（1972-1986，1,845份）

3. 行政文件

数量：26,458 份文档
描述：行政颁布与命令
包含来源：
- ao：行政命令（1936-2025，2,811份）
- execord：行政命令（1900年代-2020年代，5,750份）
- mo：备忘录命令（1900年代-2020年代，2,401份）
- mc：备忘录通告（1900年代-2020年代，2,220份）
- proc：公告（1901-2020年代，13,195份）
- genor：一般命令（81份）

4. 宪法

数量：9 份文档
描述：不同时期的菲律宾宪法
来源标识：consti
涵盖年份：1902, 1916, 1935, 1943, 1973, 1986, 1987

数据结构（模式）

列名	类型	描述
`id`	字符串	唯一标识符（格式：`{source}:{path}`）
`source`	字符串	文档来源（如 `repacts`, `execord`, `juris`）
`category`	字符串	高级类别（`juris`, `statutes`, `executive`, `consti`）
`year`	整数	文档年份
`month`	整数	文档月份（仅限判例法）
`path`	字符串	相对于项目根目录的文件路径
`basename`	字符串	不含扩展名的文件名
`title`	字符串	从内容中提取的文档标题
`content`	字符串	完整的Markdown内容

数据来源

原始来源：Lawphil.net（Arellano Law Foundation的项目）
处理：从HTML提取并转换为Markdown格式，便于查询。

使用方式

数据集已整合为单个Parquet文件（lawphil_consolidated.parquet），支持通过类别、来源、年份和关键词进行筛选与搜索。

搜集汇总

数据集介绍

构建方式

该数据集构建于菲律宾法律文献的数字化整理过程，其原始资料源自Lawphil.net平台，该平台由阿雷利亚诺法律基金会维护。构建过程中，技术团队将HTML格式的法律文档系统性地转换为Markdown格式，以提升文本的可读性与可处理性。文档依据法律类型被精细分类为判例、法规、行政法令及宪法四大类别，并进一步细分为十四种具体来源，如共和国法案、行政命令等。每份文档均标注了年份、月份等元数据，并通过唯一标识符进行索引，最终整合为Parquet格式，确保了数据的高效存储与查询。

特点

本数据集囊括了自1900年至2025年间的114,340份菲律宾法律文档，覆盖了判例、法规、行政法令和宪法等多个法律领域，呈现出时间跨度广、类型多样化的特点。文档内容以Markdown格式呈现，结构清晰，便于机器解析与人工阅读。数据集通过精细的分类体系，如将判例细分为最高法院判决，法规细分为共和国法案、联邦法案等，支持用户按类别、来源或年份进行灵活筛选。其规模庞大且来源权威，为研究菲律宾法律体系演变提供了详实的文本基础。

使用方法

使用本数据集时，用户可通过Python的Pandas库加载Parquet格式的整合文件，快速获取文档总数与列结构。数据集支持多种过滤方式，例如按类别筛选判例或法规，按来源提取特定法案，或按年份范围选择文档。用户可读取单篇文档的标题、来源、年份及内容摘要，亦可通过关键词在标题或全文内容中进行检索，以定位相关法律条文。这种灵活的数据访问方式，便于开展法律文本分析、历史研究或自然语言处理任务。

背景与挑战

背景概述

在数字人文与计算法学蓬勃发展的背景下，菲律宾法律文档数据集（gov-library）应运而生，旨在系统化地整理与开放该国百年来的法律文献遗产。该数据集由社区贡献者基于阿雷拉诺法律基金会运营的Lawphil.net项目构建，收录了自1900年至2025年间超过11.4万份法律文件，涵盖最高法院判例、成文法规、行政命令及宪法文本等多个类别。其核心研究问题聚焦于如何将分散、非结构化的历史法律文本转化为可供机器读取与分析的标准化资源，从而为法律信息检索、司法预测模型及比较法研究提供坚实的数据基础，对推动东南亚地区法律人工智能的发展具有重要影响力。

当前挑战

该数据集致力于解决法律文本信息抽取与知识服务的核心挑战，具体体现在处理多源异构文档的结构化转换、跨越超百年的时间跨度所导致的法律术语与格式演变，以及确保大规模文本语料在版权许可下的合规使用。在构建过程中，面临从原始HTML到Markdown格式的精准转换难题，需克服网页爬取中的动态内容与格式不一致问题，同时要对海量文档进行精确的元数据标注与分类，并维护历史文献在数字化过程中可能出现的文本缺失或识别错误，这些技术性障碍均对数据集的完整性与可靠性构成了显著考验。

常用场景

经典使用场景

在法学与计算社会科学交叉领域，大规模法律文本数据集为自然语言处理模型提供了丰富的训练资源。该数据集整合了菲律宾跨越一个多世纪的法律文献，包括最高法院判例、成文法规与行政命令，其经典应用场景在于支持法律文本的自动化分析与信息检索。研究者可基于此构建智能法律问答系统，或开发模型以预测司法判决趋势，从而深化对法律体系演变的理解。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在法律文本挖掘与计算法学方向。例如，基于判例文本的相似性度量模型、法律条文的多标签分类框架、以及结合时间序列的立法影响力分析等研究。这些工作不仅丰富了法律人工智能的方法论体系，也为后续研究如法律知识图谱构建、判决预测模型的跨法域验证提供了重要参考。

数据集最近研究