five

canadian-laws

收藏
Hugging Face2025-07-27 更新2025-07-28 收录
下载链接:
https://huggingface.co/datasets/a2aj/canadian-laws
下载链接
链接失效反馈
官方服务:
资源简介:
A2AJ Canadian Laws数据集是一个包含加拿大公开全文立法和法规的数据集,提供英语和法语两个版本(如有)。该数据集旨在支持实证法律研究、法律技术原型设计和语言模型预训练,特别是那些推进边缘化和低收入社区获得正义的工作。
创建时间:
2025-07-26
原始信息汇总

A2AJ Canadian Laws 数据集概述

基本信息

  • 许可证: MIT
  • 语言: 英语 (en)、法语 (fr)
  • 数据规模: 10K < n < 100K
  • 最后更新日期: 2025-07-27
  • 维护者: Access to Algorithmic Justice (A2AJ)

数据集摘要

  • 提供加拿大全文法律法规的批量开放访问。
  • 每条记录对应一项法律或法规,包含公开可用的英文和法文版本。
  • 基于Refugee Law Lab (RLL)维护的早期版本。
  • 旨在支持实证法律研究、法律技术原型设计以及公共利益的语言模型预训练。

数据集结构 (~ 5k 文档)

代码 类型 时间范围 行数
LEGISLATION-FED 联邦立法 (法案) 1870-05-12 – 2025-06-26 954
REGULATIONS-FED 联邦法规 1945-12-21 – 2025-07-16 4,803

数据字段

字段 类型 描述
dataset string 类型标识符 (LEGISLATION-FED 或 REGULATIONS-FED)
citation_en / citation_fr string 英文 / 法文的主要引用
citation2_en / citation2_fr string 可用的次要引用
name_en / name_fr string 法律或法规的标题
document_date_en / document_date_fr datetime64[ns, UTC] 文档日期
source_url_en / source_url_fr string 官方XML版本的源URL
scraped_timestamp_en / scraped_timestamp_fr datetime64[ns, UTC] 页面抓取时间戳
unofficial_text_en / unofficial_text_fr string 法律/法规的完整非官方文本
unofficial_sections_en / unofficial_sections_fr string 包含文档结构化部分的JSON字符串

数据语言

  • 可用时,记录包含英文和法文文本。仅发布一种语言时,另一种语言的字段为空。

数据分割

  • 所有记录均在一个训练分割中提供。

数据加载

python from datasets import load_dataset import pandas as pd

加载特定类型的法律(例如联邦立法)

laws = load_dataset("a2aj/canadian-laws", data_dir = "LEGISLATION-FED", split="train")

转换为数据框

df = laws.to_pandas() df.head(5)

数据集创建

来源数据

  • 法律和法规来源于Justice Canada Laws-Lois XML存储库。
  • XML文件被解析并规范化为结构化格式。

非官方版本及免责声明

  • 文本为非官方版本。权威版本请参考source_url_en / source_url_fr或访问Justice Laws Website。

使用注意事项

  • 社会影响: 开放法律数据可以减少信息不对称,但应负责任地使用。
  • 时效性: 法律和法规是动态变化的,数据集为快照,可能不反映最新版本。
  • 完整性: 目前数据集主要关注联邦立法和法规。

许可信息

  • 数据集在MIT许可证下分发。

数据集维护者

  • Sean Rehaag - A2AJ联合主任
  • Simon Wallace - A2AJ联合主任
  • 联系方式: a2aj@yorku.ca

引用

Sean Rehaag & Simon Wallace, "A2AJ Canadian Laws" (2025), online: Hugging Face Datasets https://huggingface.co/datasets/a2aj/canadian-laws.

致谢

  • 支持来自安大略法律基金会、加拿大社会科学与人文研究委员会、加拿大数字研究联盟等。
搜集汇总
数据集介绍
main_image_url
构建方式
在开放政府倡议的推动下,A2AJ Canadian Laws数据集通过系统化采集与处理加拿大联邦法律条文构建而成。其核心数据源自加拿大司法部官方维护的Laws-Lois XML知识库,采用自动化流程将原始XML文件解析为结构化文本,保留英法双语版本的法律标题、引用编号、颁布日期等元数据,并运用JSON格式对法律条款进行层次化组织。数据集构建过程注重最小化人工干预,仅进行必要的文本清理与格式标准化处理,以确保数据的原始性与可追溯性。
特点
该数据集以双语平行语料为显著特征,完整收录1870至2025年间近5,800份联邦法律与行政法规文本,涵盖立法法案与实施细则两大类型。每条记录均包含官方引用信息、非正式全文文本及结构化条款数据,并通过字段标注实现精确的时效性追踪。其独特价值在于将分散的法律资源整合为机器可读的标准化格式,既支持基于条款粒度的法律语义分析,也为比较法学研究提供天然的双语对照语料。数据缺失值采用统一标记规范,确保处理一致性。
使用方法
研究者可通过Hugging Face数据集库直接加载特定法律类型或完整语料库,支持转换为Pandas DataFrame进行灵活分析。技术实现上提供Python接口与Parquet格式双通道,兼顾交互式探索与大规模本地处理的效率需求。使用建议强调需配合官方源数据进行法律效力验证,推荐重点应用于法律计量学、司法人工智能模型训练及双语法律信息服务开发三大场景。数据加载代码示例已封装类型筛选、数据转换等常用操作,显著降低法律文本挖掘的技术门槛。
背景与挑战
背景概述
A2AJ Canadian Laws数据集由Access to Algorithmic Justice (A2AJ)研究项目于2025年创建,旨在提供加拿大联邦法律与法规的开放访问全文数据。该数据集基于Refugee Law Lab (RLL)早期版本扩展而来,现由约克大学Osgoode Hall法学院和多伦多都会大学Lincoln Alexander法学院联合托管。其核心研究问题聚焦于通过开放法律数据推动实证法学研究、法律科技创新及语言模型预训练,尤其关注边缘化与低收入群体的司法可及性。作为加拿大首个系统化整合双语法律文本的开放数据集,它为法律信息民主化和AI驱动的司法研究奠定了重要基础。
当前挑战
该数据集面临双重挑战:在领域问题层面,法律文本固有的复杂性体现在多语言对齐(英法双语)、时效性维护(法律条款动态更新)以及跨领域解释(专业术语消歧)等方面;在构建过程中,需克服原始XML数据的异构性解析、非官方文本的准确性验证,以及联邦与地方法规的覆盖范围局限等技术难题。此外,如何平衡数据开放性与法律权威性之间的张力,确保衍生应用不加剧司法不平等,构成其社会影响维度的潜在挑战。
常用场景
经典使用场景
在法学研究领域,A2AJ Canadian Laws数据集为学者提供了丰富的加拿大联邦法律与法规文本资源。该数据集最经典的使用场景包括支持大规模法律实证研究,例如分析法律条文的历史演变趋势、比较双语法律文本的语义差异,以及研究特定法律领域(如移民法或环境法)的条款变化。研究人员可以基于该数据集构建法律知识图谱,或开发自动化法律文本分析工具。
实际应用
在法律科技领域,该数据集已成为开发智能法律助手的基础语料库。实践者利用其训练法律问答系统、合同自动审查工具以及法律文书生成模型。政府机构可借助该数据集监测法律体系的连贯性,非营利组织则用于开发普惠法律服务平台。特别值得注意的是,数据集支持开发面向低收入群体的法律信息检索系统,切实推进司法可及性这一社会目标。
衍生相关工作
基于该数据集已产生多项重要研究成果。Refugee Law Lab团队早期开发了加拿大移民法语义搜索系统,A2AJ项目组后续构建了法律变更预警模型。在自然语言处理领域,该数据被用于训练Legal-BERT的加拿大法律专用版本。近期有学者结合该数据集与判例数据库,开发了法律条款效力预测系统,相关成果发表在计算法学顶级会议ICAIL上。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作