LegalBench.PT
收藏arXiv2025-02-23 更新2025-02-26 收录
下载链接:
https://huggingface.co/datasets/BeatrizCanaverde/LegalBench.PT
下载链接
链接失效反馈官方服务:
资源简介:
LegalBench.PT是首个全面覆盖葡萄牙法律关键领域的法律基准,由葡萄牙里斯本大学法学院提供。该数据集通过收集实际法律考试的长期问题和答案,并使用GPT-4o模型将其转换为多项选择题、判断题和匹配题形式。经过筛选和处理,最终形成了包含4723个问题的数据集,覆盖了葡萄牙法律的31个不同领域。该数据集旨在评估大型语言模型在法律知识和实际应用方面的能力。
LegalBench.PT is the first legal benchmark comprehensively covering key areas of Portuguese law, developed by the Faculty of Law of the University of Lisbon, Portugal. This dataset collects long-form questions and answers from real legal examinations, and transforms them into multiple-choice, true-false and matching question formats using the GPT-4o model. After screening and processing, a final dataset consisting of 4,723 questions spanning 31 distinct domains of Portuguese law is formed. This benchmark aims to evaluate the capabilities of large language models in terms of legal knowledge and practical application.
提供机构:
葡萄牙里斯本大学法学院
创建时间:
2025-02-23
搜集汇总
数据集介绍

构建方式
LegalBench.PT数据集的构建始于收集葡萄牙法学院的实际考试题目和答案,这些题目主要采用长篇论述形式。为了便于评估,研究者使用GPT-4o将这些题目转换为多项选择、是非题和配对题等格式。随后,通过过滤和加工过程,提高了数据集的质量,并确保了准确性和相关性。为了验证数据集的可靠性,研究者邀请了一位法律专业人士对生成的部分题目进行了审查。
特点
LegalBench.PT数据集涵盖了葡萄牙法律的31个不同领域,包括公法、私法、公私法、国际公法和欧盟及共同体法等。数据集包含4723个问题,这些问题经过严格的筛选和处理,旨在评估大型语言模型(LLMs)的法律知识和推理能力。尽管问题是合成生成的,但它们基于人类创建的考试,且经过严格的过滤和处理,因此是一个可靠的数据集。
使用方法
使用LegalBench.PT数据集时,研究者首先通过GPT-4o将实际考试题目转换为多种选择题格式,然后对这些题目进行筛选和处理。在生成过程中,研究者采用了三种方法来处理不同类型的考试题目,并设计了六种提示来指定生成的问题类型。生成后,通过规则和语义方法过滤掉不希望的问题,并通过随机化选项顺序来最小化潜在偏差。最终,研究者对生成的数据集进行了统计分析和质量评估,以确保其适用于LLMs的性能评估。
背景与挑战
背景概述
在法律领域,大型语言模型(LLMs)的应用日益增多,特别是在提高法律服务的效率和可访问性方面。LegalBench.PT数据集的创建填补了葡萄牙法律系统中缺乏专门基准的空白。该数据集由Beatriz Canaverde、Telmo Pessoa Pires、Leonor Melo Ribeiro和André F. T. Martins等研究人员共同开发,首次为葡萄牙法律的主要领域提供了一个全面的基准。LegalBench.PT的创建过程包括从真实的法律考试中收集长篇问题和答案,并使用GPT-4o将这些问题和答案转换为多项选择、真假判断和匹配格式。为了保证数据集的质量,研究人员对生成的数据进行筛选和处理,并邀请法律专业人士对样本问题进行审查。LegalBench.PT的发布对评估LLMs在葡萄牙法律知识方面的理解和推理能力具有重要意义,并为相关领域的研究提供了新的工具。
当前挑战
LegalBench.PT数据集面临的挑战主要包括:1)所解决的领域问题的挑战,即如何全面评估LLMs在葡萄牙法律领域的知识和应用能力;2)构建过程中所遇到的挑战,如如何将长篇问题和答案转换为易于自动评估的格式,以及如何确保生成的数据集的质量和准确性。此外,数据集还包含了由GPT-4o生成的问题,这可能导致潜在的数据偏差。为了解决这些问题,研究人员采用了严格的数据筛选和处理方法,并邀请法律专业人士对样本问题进行审查。同时,他们还评估了葡萄牙律师在数据集上的表现,以建立一个模型比较的基线并验证基准的有效性。
常用场景
经典使用场景
LegalBench.PT作为首个针对葡萄牙法律体系的全面法律基准,为评估大型语言模型(LLMs)的法律知识和推理能力提供了一个可靠的平台。该数据集由真实法律考试的问答组成,经过精心处理和过滤,适用于多个法律领域的知识评估。LegalBench.PT被广泛应用于LLMs的性能评估,特别是在葡萄牙法律知识方面的评估。它为研究人员提供了宝贵的资源,以评估和比较不同LLMs在法律领域的表现,从而促进法律领域LLMs的发展和应用。
解决学术问题
LegalBench.PT解决了在葡萄牙法律体系中缺乏标准化基准的问题,填补了该领域的研究空白。在此之前,尽管大型语言模型在法律领域的应用引起了广泛关注,但针对葡萄牙法律体系的基准尚不存在。LegalBench.PT的创建为LLMs的法律知识和推理能力评估提供了一个标准化、系统化的框架,有助于推动法律领域人工智能的发展。此外,该数据集还揭示了LLMs在法律知识评估中可能存在的偏差,为后续研究和改进提供了重要参考。
衍生相关工作
LegalBench.PT的创建和发布激发了更多关于法律领域人工智能的研究。基于LegalBench.PT的研究成果,研究人员进一步探索了LLMs在法律领域的应用潜力,包括合同分析、案例摘要、法律咨询等。此外,LegalBench.PT还为其他语言和法律体系的数据集开发提供了参考和借鉴。例如,研究人员可以借鉴LegalBench.PT的创建方法,开发针对其他语言和法律体系的基准数据集,从而推动全球法律领域人工智能的发展。
以上内容由遇见数据集搜集并总结生成



