umarbutler/open-australian-legal-qa
收藏Hugging Face2023-12-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/umarbutler/open-australian-legal-qa
下载链接
链接失效反馈官方服务:
资源简介:
Open Australian Legal QA是第一个开放的澳大利亚法律问答数据集,包含2124个由GPT-4生成的问答对。这些问答对是从Open Australian Legal Corpus中抽取的,旨在促进澳大利亚法律AI助手的发展。数据集的结构包括问题、答案、文本、提示和来源等字段。数据集的创建方法包括从Open Australian Legal Corpus中随机抽样文档,将其分割成语义上有意义的块,并使用GPT-4生成问答对。数据集的使用方法、许可证、引用和致谢部分也提供了详细信息。
Open Australian Legal QA是第一个开放的澳大利亚法律问答数据集,包含2124个由GPT-4生成的问答对。这些问答对是从Open Australian Legal Corpus中抽取的,旨在促进澳大利亚法律AI助手的发展。数据集的结构包括问题、答案、文本、提示和来源等字段。数据集的创建方法包括从Open Australian Legal Corpus中随机抽样文档,将其分割成语义上有意义的块,并使用GPT-4生成问答对。数据集的使用方法、许可证、引用和致谢部分也提供了详细信息。
提供机构:
umarbutler
原始信息汇总
数据集概述
基本信息
- 名称: Open Australian Legal QA
- 语言: 英语(en-AU, en-GB)
- 许可证: 与Open Australian Legal Corpus相同
- 规模: 包含2124个问题和答案,数据集大小为13243775字节
数据来源
- 源数据集: Open Australian Legal Corpus
任务类型
- 任务类别:
- 问答
- 文本生成
- 文本到文本生成
- 具体任务:
- 封闭域问答
数据集结构
- 特征:
- question: 问题文本,数据类型为字符串
- answer: 答案文本,数据类型为字符串
- text: 问题和答案的组合文本,格式为
Question: {question} Answer: {answer},数据类型为字符串 - prompt: 生成问题-答案对的提示文本,数据类型为字符串
- source: 包含文档信息的字典,包括版本ID、类型、司法管辖区、来源、引用、URL和文本,数据类型为字符串
使用方法
- 加载示例: 使用Hugging Face Datasets Python库加载数据集
数据集存储
- 存储格式: 以
qa.jsonl格式存储,每行代表一个问题-答案对
数据处理方法
- 数据处理: 从Open Australian Legal Corpus随机抽样2124个文档,使用
gpt-4生成问题和答案
许可证信息
- 许可证: 遵循Open Australian Legal Corpus的许可证
引用信息
- 引用格式: latex @misc{butler-2023-open-australian-legal-dataset, author = {Butler, Umar}, year = {2023}, title = {Open Australian Legal QA}, publisher = {Hugging Face}, version = {2.0.0}, doi = {10.57967/hf/1479}, url = {https://huggingface.co/datasets/umarbutler/open-australian-legal-qa} }
搜集汇总
数据集介绍

构建方式
Open Australian Legal QA数据集的构建,是通过从Open Australian Legal Corpus中随机抽取2124份文档,利用semchunk库将这些文档分割为语义上有意义的、长度不超过384个token的片段。随后,通过特定的prompt模板,指导gpt-4生成问题及答案对,并确保这些问题答案对在语义上独立于原片段。生成的问题与答案对经过格式化处理后,形成了该数据集。
特点
本数据集的特点在于,它是首个开放的澳大利亚法律问题与答案数据集,包含了2124个由gpt-4生成的法律问题与答案对。这些问题与答案对均源自于澳大利亚最大的开放法律数据库——Open Australian Legal Corpus。数据集在遵循Open Australian Legal Corpus的许可协议下分发,保证了其广泛的可用性。
使用方法
使用该数据集时,用户可以通过Hugging Face Datasets Python库加载。具体的使用方法如示例代码所示,通过指定数据集名称和split参数来加载数据集。此外,为了加速数据加载过程,建议安装orjson库。
背景与挑战
背景概述
Open Australian Legal QA是由Isaacus团队创建的首个开放式的澳大利亚法律问答数据集。该数据集于2023年发布,由2,124个问题与答案组成,这些问题与答案是通过gpt-4从Open Australian Legal Corpus(澳大利亚最大的开放法律数据库)中合成的。该数据集的目的是为了促进澳大利亚法律AI助手的开发。其遵循与Open Australian Legal Corpus相同的许可协议,确保了最广泛的受众可访问性。
当前挑战
该数据集在构建过程中面临的主要挑战包括:确保合成的问题与答案是语义上完整且脱离上下文的,以便能够独立理解;同时,还需处理和清洗数据中的空白、格式不一致等问题。此外,数据集在解决法律领域的问答任务时,还需克服如何准确提取并呈现法律文档中的关键信息的挑战。
常用场景
经典使用场景
在人工智能领域,尤其是自然语言处理的应用中,Open Australian Legal QA数据集的典型使用场景在于构建和训练法律领域的问答系统。通过该数据集,研究者可以训练模型理解和回应关于澳大利亚法律的具体问题,从而为法律专业人士或普通用户提供准确的法律信息查询服务。
实际应用
在实际应用中,Open Australian Legal QA数据集可以被用来开发面向法律咨询的聊天机器人,为用户提供快速、准确的法律咨询响应。此外,它还可以用于法律文档的自动摘要和分类,以及法律知识库的构建,极大地提高了法律行业的工作效率。
衍生相关工作
基于Open Australian Legal QA数据集,研究者们已经开展了一系列相关工作,包括但不限于法律问答模型的性能评估、跨领域的法律信息抽取以及多语言法律问答系统的构建等。这些衍生工作不仅拓宽了法律人工智能的应用范围,也推动了相关技术的成熟和发展。
以上内容由遇见数据集搜集并总结生成



