GREEKBARBENCH

Name: GREEKBARBENCH
Creator: 雅典经济与商业大学信息系, 希腊雅典研究与创新中心, 英国谢菲尔德大学
Published: 2025-05-23 04:24:17
License: 暂无描述

arXiv2025-05-23 更新2025-05-28 收录

下载链接：

http://arxiv.org/abs/2505.17267v1

下载链接

链接失效反馈

官方服务：

资源简介：

GREEKBARBENCH是一个针对法律推理和引用的基准数据集，包含来自希腊律师考试的五个不同法律领域的自由文本问题。数据集要求引用法律条文和案件事实。为了解决自由文本评估的挑战，我们提出了一个三维评分系统，并结合了LLM-as-a-judge的方法。我们还开发了一个元评估基准，以评估LLM-judges与人类专家评估之间的相关性，结果表明，简单的基于跨度的评分标准提高了它们的对齐度。我们对13个专有和开放权重LLMs的系统评估表明，尽管最好的模型超过了平均专家分数，但它们仍然低于专家分数的第95百分位数。

GREEKBARBENCH is a benchmark dataset focused on legal reasoning and citation, consisting of free-text questions across five distinct legal domains sourced from the Greek bar examination. The dataset requires respondents to cite legal statutes and case facts. To address the challenges of free-text evaluation, we propose a three-dimensional scoring system combined with the LLM-as-a-judge methodology. We additionally develop a meta-evaluation benchmark to assess the correlation between LLM-judges and human expert evaluations, with results demonstrating that simple span-based scoring criteria improve their alignment. Our systematic evaluation of 13 proprietary and open-weight LLMs shows that while the top-performing models exceed the average expert score, they still fall below the 95th percentile of expert scores.

提供机构：

雅典经济与商业大学信息系, 希腊雅典研究与创新中心, 英国谢菲尔德大学

创建时间：

2025-05-23

搜集汇总

数据集介绍

构建方式

GREEKBARBENCH数据集的构建基于希腊律师资格考试的真实题目，涵盖民法、刑法、商法、公法和律师职业道德五大法律领域。通过收集2015年至2024年的65份考试试卷，共计310个样本，数据集经过文本转换和进一步处理，确保每个问题都包含案件事实、法律问题和相关法律条文章节。数据集采用开放书籍考试的形式，模拟真实的法律实践环境，要求模型在回答中引用法律条文和案件事实。

特点

GREEKBARBENCH数据集的特点在于其挑战性和实用性。它不仅要求模型进行自由文本回答，还需引用具体的法律条文和案件事实，模拟真实的法律推理过程。数据集包含多维评分系统（事实、引用条文和分析），确保评估的全面性和准确性。此外，数据集还提供了LLM-as-a-judge框架，用于自动评估模型回答的质量，并通过元评估基准（GBB-JME）验证评估的可靠性。

使用方法

使用GREEKBARBENCH数据集时，首先需理解案件事实和法律问题，然后结合提供的相关法律条文章节生成回答。回答需包含对案件事实的引用、法律条文的准确引用以及合理的法律分析。数据集支持自动评估，通过LLM-as-a-judge框架对回答进行多维评分（事实、引用条文和分析）。研究人员可利用元评估基准（GBB-JME）验证和优化评估模型的性能，确保评估结果与人类专家评分一致。

背景与挑战

背景概述

GREEKBARBENCH是由雅典经济与商业大学信息学系、Archimedes研究中心以及谢菲尔德大学的研究团队于2025年推出的一个专注于希腊法律领域的基准测试数据集。该数据集基于希腊律师资格考试的真实题目，涵盖民法、刑法、商法、公法和律师职业道德五大法律领域，旨在评估大型语言模型（LLM）在自由文本法律推理和法条引用方面的能力。GREEKBARBENCH的创建填补了希腊语法律推理数据集的空白，并为法律自然语言处理（NLP）领域提供了一个更为真实和复杂的评估平台。

当前挑战

GREEKBARBENCH面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，该数据集旨在解决法律推理中的自由文本生成和法条引用问题，这要求模型不仅能够理解复杂的法律事实，还需准确引用相关法律条文并进行多步推理。构建过程中的挑战包括：1）从希腊律师资格考试中提取和整理高质量的题目和答案；2）设计一个三维评分系统（事实、引用法条、分析）以全面评估模型表现；3）开发基于LLM的自动评估方法，并确保其与人类专家评估的一致性。此外，数据集还需处理长文本上下文（平均62K标记）带来的模型处理难题。

常用场景

经典使用场景

GREEKBARBENCH作为法律领域的重要基准，主要用于评估大型语言模型在自由文本法律推理和引用方面的能力。该数据集基于希腊律师考试的真实题目，涵盖了民法、刑法、商法、公法和律师职业道德五大法律领域。其经典使用场景包括模拟律师考试中的案例分析，要求模型不仅能够准确理解案件事实，还需引用相关法律条文进行多步推理，最终生成符合法律逻辑的开放答案。这种设计使得该数据集成为检验模型在法律领域深度理解和复杂推理能力的理想工具。

实际应用

在实际应用中，GREEKBARBENCH为开发法律AI助手提供了关键训练和评估框架。律师事务所可利用该基准测试模型处理希腊法律咨询的准确性，法学院可将其作为教学工具训练学生法律推理能力。司法系统则能基于其评估AI辅助裁判系统的可靠性。特别值得注意的是，该数据集首创的LLM-as-a-judge评估框架大幅降低了人工评阅成本，使得大规模法律答案自动评分成为可能，这对法律教育标准化和司法效率提升具有重要实践价值。

衍生相关工作

该数据集已衍生出多个重要研究方向：其LLM评判框架催生了GBB-JME元评估基准，推动了法律领域自动评估指标的创新；三维评分体系启发OAB-Bench等后续研究改进评估维度；基于其构建的Span-Judge方法被应用于CaseGen等跨语言法律基准。在技术层面，Gemini-2.5-Flash和GPT-4.1等模型在该基准上的突破性表现，直接促进了法律专用模型的架构优化，特别是对长上下文处理和法律条文检索能力的提升产生深远影响。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集