umarbutler/open-australian-legal-qa

Name: umarbutler/open-australian-legal-qa
Creator: umarbutler
Published: 2023-12-14 06:58:56
License: 暂无描述

Hugging Face2023-12-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/umarbutler/open-australian-legal-qa

下载链接

链接失效反馈

官方服务：

资源简介：

Open Australian Legal QA是第一个开放的澳大利亚法律问答数据集，包含2124个由GPT-4生成的问答对。这些问答对是从Open Australian Legal Corpus中抽取的，旨在促进澳大利亚法律AI助手的发展。数据集的结构包括问题、答案、文本、提示和来源等字段。数据集的创建方法包括从Open Australian Legal Corpus中随机抽样文档，将其分割成语义上有意义的块，并使用GPT-4生成问答对。数据集的使用方法、许可证、引用和致谢部分也提供了详细信息。

提供机构：

umarbutler

原始信息汇总

数据集概述

基本信息

名称: Open Australian Legal QA
语言: 英语（en-AU, en-GB）
许可证: 与Open Australian Legal Corpus相同
规模: 包含2124个问题和答案，数据集大小为13243775字节

数据来源

源数据集: Open Australian Legal Corpus

任务类型

任务类别:
- 问答
- 文本生成
- 文本到文本生成
具体任务:
- 封闭域问答

数据集结构

特征:
- question: 问题文本，数据类型为字符串
- answer: 答案文本，数据类型为字符串
- text: 问题和答案的组合文本，格式为Question: {question} Answer: {answer}，数据类型为字符串
- prompt: 生成问题-答案对的提示文本，数据类型为字符串
- source: 包含文档信息的字典，包括版本ID、类型、司法管辖区、来源、引用、URL和文本，数据类型为字符串

使用方法

加载示例: 使用Hugging Face Datasets Python库加载数据集

数据集存储

存储格式: 以qa.jsonl格式存储，每行代表一个问题-答案对

数据处理方法

数据处理: 从Open Australian Legal Corpus随机抽样2124个文档，使用gpt-4生成问题和答案

许可证信息

许可证: 遵循Open Australian Legal Corpus的许可证

引用信息

引用格式: latex @misc{butler-2023-open-australian-legal-dataset, author = {Butler, Umar}, year = {2023}, title = {Open Australian Legal QA}, publisher = {Hugging Face}, version = {2.0.0}, doi = {10.57967/hf/1479}, url = {https://huggingface.co/datasets/umarbutler/open-australian-legal-qa} }

搜集汇总

数据集介绍

构建方式

Open Australian Legal QA数据集的构建，是通过从Open Australian Legal Corpus中随机抽取2124份文档，利用semchunk库将这些文档分割为语义上有意义的、长度不超过384个token的片段。随后，通过特定的prompt模板，指导gpt-4生成问题及答案对，并确保这些问题答案对在语义上独立于原片段。生成的问题与答案对经过格式化处理后，形成了该数据集。

特点

本数据集的特点在于，它是首个开放的澳大利亚法律问题与答案数据集，包含了2124个由gpt-4生成的法律问题与答案对。这些问题与答案对均源自于澳大利亚最大的开放法律数据库——Open Australian Legal Corpus。数据集在遵循Open Australian Legal Corpus的许可协议下分发，保证了其广泛的可用性。

使用方法

使用该数据集时，用户可以通过Hugging Face Datasets Python库加载。具体的使用方法如示例代码所示，通过指定数据集名称和split参数来加载数据集。此外，为了加速数据加载过程，建议安装orjson库。

背景与挑战

背景概述

Open Australian Legal QA是由Isaacus团队创建的首个开放式的澳大利亚法律问答数据集。该数据集于2023年发布，由2,124个问题与答案组成，这些问题与答案是通过gpt-4从Open Australian Legal Corpus（澳大利亚最大的开放法律数据库）中合成的。该数据集的目的是为了促进澳大利亚法律AI助手的开发。其遵循与Open Australian Legal Corpus相同的许可协议，确保了最广泛的受众可访问性。

当前挑战

该数据集在构建过程中面临的主要挑战包括：确保合成的问题与答案是语义上完整且脱离上下文的，以便能够独立理解；同时，还需处理和清洗数据中的空白、格式不一致等问题。此外，数据集在解决法律领域的问答任务时，还需克服如何准确提取并呈现法律文档中的关键信息的挑战。

常用场景

经典使用场景

在人工智能领域，尤其是自然语言处理的应用中，Open Australian Legal QA数据集的典型使用场景在于构建和训练法律领域的问答系统。通过该数据集，研究者可以训练模型理解和回应关于澳大利亚法律的具体问题，从而为法律专业人士或普通用户提供准确的法律信息查询服务。

实际应用

在实际应用中，Open Australian Legal QA数据集可以被用来开发面向法律咨询的聊天机器人，为用户提供快速、准确的法律咨询响应。此外，它还可以用于法律文档的自动摘要和分类，以及法律知识库的构建，极大地提高了法律行业的工作效率。

衍生相关工作

基于Open Australian Legal QA数据集，研究者们已经开展了一系列相关工作，包括但不限于法律问答模型的性能评估、跨领域的法律信息抽取以及多语言法律问答系统的构建等。这些衍生工作不仅拓宽了法律人工智能的应用范围，也推动了相关技术的成熟和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集