canadian-laws
收藏Hugging Face2025-07-27 更新2025-07-28 收录
下载链接:
https://huggingface.co/datasets/a2aj/canadian-laws
下载链接
链接失效反馈官方服务:
资源简介:
A2AJ Canadian Laws数据集是一个包含加拿大公开全文立法和法规的数据集,提供英语和法语两个版本(如有)。该数据集旨在支持实证法律研究、法律技术原型设计和语言模型预训练,特别是那些推进边缘化和低收入社区获得正义的工作。
创建时间:
2025-07-26
原始信息汇总
A2AJ Canadian Laws 数据集概述
基本信息
- 许可证: MIT
- 语言: 英语 (en)、法语 (fr)
- 数据规模: 10K < n < 100K
- 最后更新日期: 2025-07-27
- 维护者: Access to Algorithmic Justice (A2AJ)
数据集摘要
- 提供加拿大全文法律法规的批量开放访问。
- 每条记录对应一项法律或法规,包含公开可用的英文和法文版本。
- 基于Refugee Law Lab (RLL)维护的早期版本。
- 旨在支持实证法律研究、法律技术原型设计以及公共利益的语言模型预训练。
数据集结构 (~ 5k 文档)
| 代码 | 类型 | 时间范围 | 行数 |
|---|---|---|---|
| LEGISLATION-FED | 联邦立法 (法案) | 1870-05-12 – 2025-06-26 | 954 |
| REGULATIONS-FED | 联邦法规 | 1945-12-21 – 2025-07-16 | 4,803 |
数据字段
| 字段 | 类型 | 描述 |
|---|---|---|
dataset |
string |
类型标识符 (LEGISLATION-FED 或 REGULATIONS-FED) |
citation_en / citation_fr |
string |
英文 / 法文的主要引用 |
citation2_en / citation2_fr |
string |
可用的次要引用 |
name_en / name_fr |
string |
法律或法规的标题 |
document_date_en / document_date_fr |
datetime64[ns, UTC] |
文档日期 |
source_url_en / source_url_fr |
string |
官方XML版本的源URL |
scraped_timestamp_en / scraped_timestamp_fr |
datetime64[ns, UTC] |
页面抓取时间戳 |
unofficial_text_en / unofficial_text_fr |
string |
法律/法规的完整非官方文本 |
unofficial_sections_en / unofficial_sections_fr |
string |
包含文档结构化部分的JSON字符串 |
数据语言
- 可用时,记录包含英文和法文文本。仅发布一种语言时,另一种语言的字段为空。
数据分割
- 所有记录均在一个训练分割中提供。
数据加载
python from datasets import load_dataset import pandas as pd
加载特定类型的法律(例如联邦立法)
laws = load_dataset("a2aj/canadian-laws", data_dir = "LEGISLATION-FED", split="train")
转换为数据框
df = laws.to_pandas() df.head(5)
数据集创建
来源数据
- 法律和法规来源于Justice Canada Laws-Lois XML存储库。
- XML文件被解析并规范化为结构化格式。
非官方版本及免责声明
- 文本为非官方版本。权威版本请参考
source_url_en/source_url_fr或访问Justice Laws Website。
使用注意事项
- 社会影响: 开放法律数据可以减少信息不对称,但应负责任地使用。
- 时效性: 法律和法规是动态变化的,数据集为快照,可能不反映最新版本。
- 完整性: 目前数据集主要关注联邦立法和法规。
许可信息
- 数据集在MIT许可证下分发。
数据集维护者
- Sean Rehaag - A2AJ联合主任
- Simon Wallace - A2AJ联合主任
- 联系方式: a2aj@yorku.ca
引用
Sean Rehaag & Simon Wallace, "A2AJ Canadian Laws" (2025), online: Hugging Face Datasets https://huggingface.co/datasets/a2aj/canadian-laws.
致谢
- 支持来自安大略法律基金会、加拿大社会科学与人文研究委员会、加拿大数字研究联盟等。
搜集汇总
数据集介绍

构建方式
在开放政府倡议的推动下,A2AJ Canadian Laws数据集通过系统化采集与处理加拿大联邦法律条文构建而成。其核心数据源自加拿大司法部官方维护的Laws-Lois XML知识库,采用自动化流程将原始XML文件解析为结构化文本,保留英法双语版本的法律标题、引用编号、颁布日期等元数据,并运用JSON格式对法律条款进行层次化组织。数据集构建过程注重最小化人工干预,仅进行必要的文本清理与格式标准化处理,以确保数据的原始性与可追溯性。
特点
该数据集以双语平行语料为显著特征,完整收录1870至2025年间近5,800份联邦法律与行政法规文本,涵盖立法法案与实施细则两大类型。每条记录均包含官方引用信息、非正式全文文本及结构化条款数据,并通过字段标注实现精确的时效性追踪。其独特价值在于将分散的法律资源整合为机器可读的标准化格式,既支持基于条款粒度的法律语义分析,也为比较法学研究提供天然的双语对照语料。数据缺失值采用统一标记规范,确保处理一致性。
使用方法
研究者可通过Hugging Face数据集库直接加载特定法律类型或完整语料库,支持转换为Pandas DataFrame进行灵活分析。技术实现上提供Python接口与Parquet格式双通道,兼顾交互式探索与大规模本地处理的效率需求。使用建议强调需配合官方源数据进行法律效力验证,推荐重点应用于法律计量学、司法人工智能模型训练及双语法律信息服务开发三大场景。数据加载代码示例已封装类型筛选、数据转换等常用操作,显著降低法律文本挖掘的技术门槛。
背景与挑战
背景概述
A2AJ Canadian Laws数据集由Access to Algorithmic Justice (A2AJ)研究项目于2025年创建,旨在提供加拿大联邦法律与法规的开放访问全文数据。该数据集基于Refugee Law Lab (RLL)早期版本扩展而来,现由约克大学Osgoode Hall法学院和多伦多都会大学Lincoln Alexander法学院联合托管。其核心研究问题聚焦于通过开放法律数据推动实证法学研究、法律科技创新及语言模型预训练,尤其关注边缘化与低收入群体的司法可及性。作为加拿大首个系统化整合双语法律文本的开放数据集,它为法律信息民主化和AI驱动的司法研究奠定了重要基础。
当前挑战
该数据集面临双重挑战:在领域问题层面,法律文本固有的复杂性体现在多语言对齐(英法双语)、时效性维护(法律条款动态更新)以及跨领域解释(专业术语消歧)等方面;在构建过程中,需克服原始XML数据的异构性解析、非官方文本的准确性验证,以及联邦与地方法规的覆盖范围局限等技术难题。此外,如何平衡数据开放性与法律权威性之间的张力,确保衍生应用不加剧司法不平等,构成其社会影响维度的潜在挑战。
常用场景
经典使用场景
在法学研究领域,A2AJ Canadian Laws数据集为学者提供了丰富的加拿大联邦法律与法规文本资源。该数据集最经典的使用场景包括支持大规模法律实证研究,例如分析法律条文的历史演变趋势、比较双语法律文本的语义差异,以及研究特定法律领域(如移民法或环境法)的条款变化。研究人员可以基于该数据集构建法律知识图谱,或开发自动化法律文本分析工具。
实际应用
在法律科技领域,该数据集已成为开发智能法律助手的基础语料库。实践者利用其训练法律问答系统、合同自动审查工具以及法律文书生成模型。政府机构可借助该数据集监测法律体系的连贯性,非营利组织则用于开发普惠法律服务平台。特别值得注意的是,数据集支持开发面向低收入群体的法律信息检索系统,切实推进司法可及性这一社会目标。
衍生相关工作
基于该数据集已产生多项重要研究成果。Refugee Law Lab团队早期开发了加拿大移民法语义搜索系统,A2AJ项目组后续构建了法律变更预警模型。在自然语言处理领域,该数据被用于训练Legal-BERT的加拿大法律专用版本。近期有学者结合该数据集与判例数据库,开发了法律条款效力预测系统,相关成果发表在计算法学顶级会议ICAIL上。
以上内容由遇见数据集搜集并总结生成



