Open Australian Legal Corpus

Name: Open Australian Legal Corpus
Creator: 蒙纳士大学
Published: 2024-12-09 15:46:14
License: 暂无描述

arXiv2024-12-09 更新2024-12-11 收录

下载链接：

https://huggingface.co/datasets/umarbutler/open-australian-legal-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Open Australian Legal Corpus是由蒙纳士大学创建的澳大利亚法律语料库，专门用于法律引用预测任务。该数据集包含55,005个实例，涵盖18,677个独特的法律引用，主要来源于新南威尔士州的案例法。数据集的创建过程包括从案例文本中提取引用句及其上下文，并使用大型语言模型生成辅助描述。该数据集主要应用于法律领域的引用预测，旨在提高法律文本中引用预测的准确性，特别是在澳大利亚法律背景下。

The Open Australian Legal Corpus is an Australian legal corpus developed by Monash University, exclusively designed for legal citation prediction tasks. This dataset comprises 55,005 instances, encompassing 18,677 unique legal citations, primarily sourced from the case law of New South Wales. The dataset construction process involves extracting citation sentences and their contextual information from case texts, and leveraging large language models (LLMs) to generate auxiliary descriptions. This dataset is primarily applied to citation prediction tasks in the legal field, aiming to improve the accuracy of citation prediction in legal texts, especially within the context of Australian law.

提供机构：

蒙纳士大学

创建时间：

2024-12-09

原始信息汇总

Open Australian Legal Corpus

概述

Open Australian Legal Corpus 是首个也是唯一一个多司法管辖区的澳大利亚立法和司法文档开放语料库。该语料库包含229,122个文本，总计超过8000万行和14亿个标记，涵盖了澳大利亚联邦、新南威尔士州、昆士兰州、西澳大利亚州、南澳大利亚州、塔斯马尼亚州和诺福克岛的所有现行法规和条例，以及数千个法案和数十万个法院及法庭判决。

数据集信息

语言: 英语 (en)
许可证: 其他 (other)
大小: 100K<n<1M
源数据集:
- 联邦立法登记处
- 澳大利亚联邦法院
- 澳大利亚高等法院
- 新南威尔士州判例法
- 新南威尔士州立法
- 昆士兰州立法
- 西澳大利亚州立法
- 南澳大利亚州立法
- 塔斯马尼亚州立法
任务类别:
- 文本生成
- 填充掩码
- 文本检索
任务ID:
- 语言建模
- 掩码语言建模
- 文档检索

数据集结构

配置: corpus
数据文件: corpus.jsonl
特征:
- version_id: 字符串，文档最新版本的唯一标识符。
- type: 字符串，文档类型，可能的值包括 primary_legislation, secondary_legislation, bill, decision。
- jurisdiction: 字符串，文档的司法管辖区，可能的值包括 commonwealth, new_south_wales, queensland, western_australia, south_australia, tasmania, norfolk_island。
- source: 字符串，文档的来源，可能的值包括 federal_register_of_legislation, federal_court_of_australia, high_court_of_australia, nsw_caselaw, nsw_legislation, queensland_legislation, western_australian_legislation, south_australian_legislation, tasmanian_legislation。
- mime: 字符串，文档文本的MIME类型。
- date: 字符串，文档的ISO 8601日期 (YYYY-MM-DD) 或 null（如果日期不可用）。
- citation: 字符串，文档的标题，立法和法案的情况下，附有缩写的司法管辖区。
- url: 字符串，文档最新版本的超链接。
- when_scraped: 字符串，文档被抓取的ISO 8601时区感知时间戳 (YYYY-MM-DDTHH:MM:SS±HH:MM)。
- text: 字符串，文档最新版本的文本。

统计信息

文档总数: 229,122
总行数: 80,392,096
总标记数: 1,446,388,238
文档来源:
- HTML: 209,118 (91.27%)
- PDF: 15,794 (6.89%)
- Word文档: 2,509 (1.10%)
- RTF: 1,701 (0.74%)

文档类型和来源统计

来源	主要立法	次要立法	法案	判决	总计
联邦立法登记处	4,760	26,817			31,577
澳大利亚联邦法院				62,841	62,841
澳大利亚高等法院				9,454	9,454
新南威尔士州判例法				114,412	114,412
新南威尔士州立法	1,430	798			2,228
昆士兰州立法	573	432	2,285		3,290
西澳大利亚州立法	813	750			1,563
南澳大利亚州立法	554	468	196		1,218
塔斯马尼亚州立法	854	1,685			2,539
总计	8,984	30,950	2,481	186,707	229,122

许可证

该语料库及其所有文档均在开源许可证下分发，允许非商业和商业用途（详见许可证）。

引用

如果您的研究使用了该语料库，请引用： bibtex @misc{butler-2024-open-australian-legal-corpus, author = {Butler, Umar}, year = {2024}, title = {Open Australian Legal Corpus}, publisher = {Hugging Face}, version = {7.0.4}, doi = {10.57967/hf/2833}, url = {https://huggingface.co/datasets/umarbutler/open-australian-legal-corpus} }

搜集汇总

数据集介绍

构建方式

Open Australian Legal Corpus数据集的构建基于新南威尔士州案例法部分，涵盖了82,530个特定的案例引用。研究团队从每个引用中提取了包含引用的句子及其前一句，并利用大型语言模型（LLM）生成了辅助描述，称为Reason-of-Cite（RoC）。这些描述基于引用的全文、包含引用的句子及其前一句。最终，数据集包含55,005个实例，涵盖18,677个独特的引用，其中5%的引用被引用至少9次，而54%的引用仅被引用一次。

使用方法

Open Australian Legal Corpus数据集主要用于法律引用预测任务的研究。研究者可以通过该数据集进行模型训练和评估，比较不同方法在法律引用预测中的表现。具体使用方法包括：1）直接提示通用或法律专业化的LLM进行预测；2）使用检索系统结合通用或领域特定的嵌入进行检索；3）对LLM进行任务特定的指令微调；4）结合LLM与检索系统的混合策略，如检索增强生成、查询扩展或投票集成。通过这些方法，研究者可以评估不同模型在法律引用预测任务中的准确性和鲁棒性。

背景与挑战

背景概述

近年来，大型语言模型（LLMs）在法律领域的应用展现出巨大潜力，尤其是在法律任务中。然而，尽管LLMs在许多法律任务中表现出色，但其生成的法律引用中仍存在显著的幻觉问题，导致引用错误频发。在此背景下，Monash大学的研究人员Ehsan Shareghi、Jiuzhou Han和Paul Burgess聚焦于澳大利亚法律语境中的法律引用预测问题，旨在通过构建Open Australian Legal Corpus数据集，探索多种方法以提高法律引用预测的准确性。该数据集包含了82,530个法律引用，涵盖了18,677个独特的案例，为法律领域的研究提供了宝贵的资源。

当前挑战

法律引用预测任务面临的主要挑战包括：1）确保引用的准确性，特别是在处理复杂的法律文本时，LLMs容易产生幻觉，导致引用错误；2）构建过程中，数据集的粒度和嵌入类型的选择对检索系统的性能有显著影响，如何选择合适的粒度和嵌入类型是一个关键问题；3）在实际应用中，如何有效结合LLMs与检索系统，以减少幻觉并提高预测的准确性，是当前研究的重点和难点。此外，数据集中引用频率较低的案例预测难度较大，如何提高这些案例的预测准确性也是一个亟待解决的问题。

常用场景

经典使用场景

Open Australian Legal Corpus 数据集的经典使用场景主要集中在法律领域的引用预测任务中。该数据集通过提供大量的法律案例文本及其引用信息，使得研究者能够训练和评估模型在法律文本中准确识别和预测相关法律条文或先例的能力。这种任务在法律实践中至关重要，因为法官和律师在做出判决或撰写法律文件时，依赖于对先前案例和法律条文的准确引用。

解决学术问题

该数据集解决了法律领域中引用预测的学术研究问题，特别是在大型语言模型（LLMs）应用中的幻觉问题。通过提供高质量的法律文本和引用数据，研究者能够探索如何通过指令微调、检索增强等方法提高模型的引用预测准确性，从而减少模型生成错误引用的频率。这不仅提升了法律文本处理的可靠性，也为法律人工智能的发展提供了重要的研究基础。

实际应用

在实际应用中，Open Australian Legal Corpus 数据集可以用于开发和优化法律领域的智能系统，如法律文书自动生成、法律判决预测和法律咨询服务。这些系统能够帮助律师和法官更高效地处理法律事务，减少人为错误，并提高法律决策的透明度和一致性。此外，该数据集还可用于法律教育领域，帮助学生和从业者更好地理解和应用法律条文。

数据集最近研究