umarbutler/open-australian-legal-corpus

Name: umarbutler/open-australian-legal-corpus
Creator: umarbutler
Published: 2024-06-09 05:22:15
License: 暂无描述

Hugging Face2024-06-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/umarbutler/open-australian-legal-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Open Australian Legal Corpus是第一个也是唯一一个多司法管辖区的澳大利亚立法和司法文件开放语料库。该语料库包含227,488个文本，总计超过7000万行和14亿个标记，涵盖了澳大利亚联邦、新南威尔士州、昆士兰州、西澳大利亚州、南澳大利亚州、塔斯马尼亚州和诺福克岛的现行法规和条例，以及数千个法案和数十万个法院和法庭裁决。作为迄今为止最大的免费开放数据库，该语料库旨在推动澳大利亚法律AI研究的发展，允许研究人员预训练和微调机器学习模型，用于澳大利亚法律领域的自然语言处理任务，如文档分类、摘要、信息检索和问答。

提供机构：

umarbutler

原始信息汇总

数据集概述：Open Australian Legal Corpus

基本信息

名称: Open Australian Legal Corpus
语言: en-AU, en-GB
许可证: open-australian-legal-corpus
大小: 100K<n<1M
来源数据集:
- Federal Register of Legislation
- Federal Court of Australia
- High Court of Australia
- NSW Caselaw
- NSW Legislation
- Queensland Legislation
- Western Australian Legislation
- South Australian Legislation
- Tasmanian Legislation

任务类别

text-generation
fill-mask
text-retrieval

任务ID

language-modeling
masked-language-modeling
document-retrieval

数据集结构

存储格式: corpus.jsonl
数据字段:
- version_id: string
- type: string
- jurisdiction: string
- source: string
- citation: string
- url: string
- when_scraped: string
- text: string

数据集统计

文档总数: 220,621
总行数: 57,151,746
总令牌数: 1,409,563,514

数据集使用

加载方式: 支持手动加载和通过Hugging Face Datasets库加载。

许可证详情

数据集本身: 根据Creative Commons Attribution 4.0 International Licence授权。
数据集内文档: 大多数情况下允许非商业和商业使用。

搜集汇总

数据集介绍

构建方式

在澳大利亚法律信息数字化进程的背景下，Open Australian Legal Corpus 的构建体现了系统性数据采集与整合的严谨方法。该数据集通过自动化网络爬虫技术，从澳大利亚联邦及多个州级的立法与司法官方数据库中采集原始文档，涵盖联邦立法登记册、联邦法院、高等法院以及新南威尔士州、昆士兰州等地的法律数据库。针对不同格式的文档，如HTML、PDF、RTF和DOCX，研究团队分别采用了Inscriptis、Tesseract、striprtf和mammoth等工具进行文本提取与转换，确保文本内容的完整性与准确性。所有文档均经过清洗、结构化处理，并统一组织为JSON Lines格式，每条记录包含版本标识、文档类型、管辖区域、来源、引用信息、日期、URL、抓取时间戳及全文文本等字段，形成了标准化、机器可读的法律文本集合。

特点

作为澳大利亚首个多司法管辖区的开放式法律文本语料库，该数据集在规模与覆盖范围上具有显著优势。它收录了超过23万份文档，包含近7000万行文本和约14.7亿个词元，全面涵盖了联邦、新南威尔士州、昆士兰州、西澳大利亚州、南澳大利亚州、塔斯马尼亚州及诺福克岛现行有效的所有成文法、法规、议案以及数十万份法院与法庭判决。数据集按文档类型与来源进行了细致划分，包括主要立法、次要立法、议案和司法判决，并精确标注了每份文档的管辖区域和来源数据库。其文本内容主要源自HTML格式，辅以部分PDF、Word和RTF文档的转换结果，确保了语料的原始性与多样性。该语料库以开放许可协议发布，支持学术与商业用途，为法律人工智能研究提供了高质量、大规模的基础数据资源。

使用方法

在自然语言处理与计算法学研究领域，该数据集为模型训练与评估提供了丰富的文本资源。研究人员可通过Hugging Face Datasets库直接加载语料库，使用load_dataset函数指定数据集名称与分割方式，轻松访问结构化文档数据。该语料库适用于多种下游任务，包括文本生成、掩码语言建模、文档检索、文本分类、摘要生成以及法律问答系统开发。用户可依据文档类型、管辖区域或来源字段进行筛选，针对特定法律领域或任务构建训练集与测试集。鉴于其大规模特性，建议在加载时根据计算资源合理设置内存管理参数，例如通过keep_in_memory选项控制数据载入方式。此外，数据集的标准化字段设计便于与现有NLP流程集成，支持端到端的模型训练与实验分析。

背景与挑战

背景概述

随着人工智能技术在法律领域的深入应用，构建大规模、高质量的法律文本数据集成为推动法律智能研究的关键基础。在此背景下，Umar Butler及其所属机构Isaacus于2025年发布了Open Australian Legal Corpus，这是首个覆盖澳大利亚多司法管辖区的开放式法律文本语料库。该数据集整合了来自联邦及多个州立法与司法机构的超过23万份文档，涵盖现行法规、法案及法院判决，总计近15亿词汇量。其核心研究目标在于为澳大利亚法律领域的自然语言处理任务，如文档分类、摘要生成、信息检索与问答系统，提供预训练与微调的基础资源，从而促进法律人工智能的本土化发展，对提升法律服务的自动化与智能化水平具有深远影响。

当前挑战

在法律人工智能领域，处理澳大利亚法律文本面临独特挑战：法律语言具有高度专业性与复杂性，涉及多司法管辖区术语差异，且文本结构多样，从法规到判例均需精确解析。构建过程中，数据采集面临多重障碍：需从九个官方来源系统爬取，处理HTML、PDF、DOCX及RTF等多种格式文档，确保文本提取的完整性与准确性；同时，维护数据时效性与版本一致性亦为关键，要求持续更新以反映法律条文的最新状态。此外，数据清洗与结构化需克服OCR错误、格式不统一及元数据标准化等难题，以保障语料库的高质量与可用性。

常用场景

经典使用场景

在法律人工智能研究领域，Open Australian Legal Corpus作为首个多司法管辖区的澳大利亚法律文本开放语料库，其经典应用场景在于为自然语言处理模型提供大规模、高质量的预训练与微调数据。该语料库汇集了超过23万份立法与司法文档，涵盖联邦及多个州的法律条文与判例，为研究者构建领域特定的语言模型奠定了坚实基础。通过利用这些结构化的法律文本，模型能够深入理解澳大利亚法律体系的术语、逻辑与语境，进而提升在法律文档分类、摘要生成、信息检索等下游任务中的性能表现。

解决学术问题

该数据集有效解决了法律人工智能研究中数据稀缺与领域适应性的核心学术问题。传统通用语料库难以捕捉法律文本特有的严谨性、专业性与地域性，而本语料库通过整合多源、多类型的权威法律文档，为研究提供了标准化、可复现的实验基准。它使得研究者能够系统探索法律文本的语义表征、推理模式以及跨司法管辖区的差异，推动了法律文本挖掘、计算法学等交叉学科的发展，并为构建透明、可解释的法律AI系统提供了关键数据支撑。

衍生相关工作

围绕该数据集已衍生出一系列经典研究工作，特别是在领域自适应预训练与法律文本理解模型方面。例如，研究者利用该语料库微调BERT、RoBERTa等通用语言模型，开发了针对澳大利亚法律文本的专用版本，显著提升了在法律问答、判决预测等任务上的准确性。此外，基于语料库的跨司法管辖区比较分析、法律条文演变追踪以及判例引用网络构建等研究也相继展开，这些工作不仅深化了对法律体系运作机制的计算理解，也为全球其他司法管辖区构建类似开放资源提供了方法论借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集