greek-bar-bench

Hugging Face2025-05-31 更新2025-06-01 收录

下载链接：

https://huggingface.co/datasets/AUEB-NLP/greek-bar-bench

下载链接

链接失效反馈

官方服务：

资源简介：

GreekBarBench是一个基准数据集，旨在评估LLMs在希腊律师考试中五个不同法律领域的复杂法律推理问题上的表现，要求引用法律条文和案例事实。数据集由2015年至2024年希腊律师考试的真题组成，旨在模拟开放书籍考试格式，为模型提供案例事实、法律问题和相关法律法典章节。任务要求模型分析事实、识别适用的法律条文、综合信息并提供包含明确引用案例事实和法律条文的法律分析答案。数据集旨在评估复杂的法律推理能力，包括多跳推理和对法定法律的准确应用。

创建时间：

2025-05-30

原始信息汇总

GreekBarBench 数据集概述

数据集基本信息

名称: GreekBarBench (GBB)
类型: 法律问答与文本生成
语言: 希腊语 (el)
许可证: CC-BY-4.0
标签: 法律、推理、自由文本、引用、希腊语
数据量: <1K 样本
创建者: Odysseas S. Chlapanis
资助方: Archimedes Unit, Athena Research Center

数据集目的

评估大型语言模型在希腊律师资格考试中复杂法律推理问题的表现，要求引用法律条文和案件事实。

数据集结构

主要文件

greekbarbench.csv (主测试集)
- 字段:
  - facts: 案件事实（带编号的字符串）
  - question: 法律问题
  - answer: 标准答案（自由文本）
  - chapters: 相关法律章节全文（约60k tokens）
  - spans: 标注文本片段（事实/引用条文/分析维度）
  - area: 法律领域（民事/刑事/商业/公共/律师）
  - date: 考试场次标识（格式：{phase}_{year}）
  - articles: 引用条文内容
  - number: 问题序号
gbb_jme.csv (LLM法官元评估集)
- 字段:
  - number: 问题序号
  - model: 模型标识
  - response: 模型回答
  - facts/articles/analysis: 专家评分（1-10）
  - avg: 平均分
  - area/date: 同主文件
  - reasoning: 模型推理过程（如有）

数据来源

原始数据: 2015-2024年希腊律师资格考试题及参考答案（来自lawspot.gr）
法律条文: 希腊法律数据库（et.gr）
论文: arXiv:2505.17267

创建过程

数据收集:
- 考试题PDF转换为文本
- 使用Segment-Any-Text模型分割案件事实
- 提取参考答案中引用的法律条文
标注:
- 2名希腊执业律师标注：
  - GBB-JME集的模型回答评分
  - 标准答案的文本片段标注（用于Span-Judge）

评估方法

三维评分系统:
- 事实理解（Facts）
- 条文引用（Cited Articles）
- 分析质量（Analysis）
LLM法官框架:
- Simple-Judge: 基础提示词评估
- Span-Judge: 基于标注片段的增强评估
元评估指标:
- 软配对准确率（SPA）
- 最佳法官模型: GPT-4.1-mini (SPA=0.856)

领域分布

涵盖5个法律领域：

民事（civil）
刑事（criminal）
商业（commercial）
公共（public）
律师伦理（lawyers）

引用格式

bibtex @misc{chlapanis2025greekbarbench, title={GreekBarBench: A Challenging Benchmark for Free-Text Legal Reasoning and Citations}, author={Odysseas S. Chlapanis et al.}, year={2025}, eprint={2505.17267}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

GreekBarBench数据集基于2015至2024年希腊律师资格考试的真实试题构建，涵盖民事、刑事、商业、公共和律师伦理五大法律领域。研究团队从官方考试手册中提取虚构案例，通过神经文本分割模型对案件事实进行细粒度标注，并整合相关法律条文作为上下文背景。每道试题均包含案件事实描述、法律问题、标准答案及对应法条章节，构建过程严格遵循开卷考试模式，确保评估模型在真实法律场景下的推理能力。

特点

该数据集突出体现三大特征：采用三维评分体系（事实理解、法条引用、分析推理）全面评估法律推理能力；包含希腊语法律文本特有的语言结构和专业术语；提供基于人类专家标注的元评估基准GBB-JME。特别设计的span标注体系能精确追踪答案中事实引用、法条应用和逻辑分析的文本片段，为法律大模型提供可解释的评估框架。数据集包含288个测试样本，法律条文平均长度达6万标记，有效检验模型处理长文本和复杂法律概念的能力。

使用方法

使用该数据集时，需将案件事实、法律问题和相关法条章节作为输入，要求模型生成包含明确引用的自由文本答案。评估采用LLM-as-a-Judge框架，推荐使用增强版Span-Judge提示策略，该策略结合人类标注的span rubric能显著提升评分准确性。研究人员可通过GBB-JME子集进行法官模型元评估，采用软配对准确率(SPA)指标衡量自动评分与人类专家评分的一致性。数据集支持端到端评估和分阶段验证，适用于法律推理、引文生成和跨语言法律分析等研究场景。

背景与挑战

背景概述

希腊法律考试基准数据集GreekBarBench由雅典研究中心Archimedes Unit的Odysseas S. Chlapanis团队于2025年构建，旨在评估大型语言模型在希腊法律领域的复杂推理能力。该数据集收录了2015至2024年间希腊律师资格考试的真实试题，涵盖民事、刑事、商事、公法及律师伦理五大法律领域，要求模型在开卷考试情境下结合案例事实与法律条文进行多跳推理，并生成包含明确引用的自由文本答案。作为首个针对希腊法律体系的专业评测基准，该数据集为法律人工智能研究提供了重要的跨语言评估工具，推动了法律文本理解与推理技术的发展。

当前挑战

该数据集面临双重挑战：在领域问题层面，法律推理要求模型精确理解案例事实、准确引用相关法条并进行逻辑严密的专业分析，这对自然语言处理技术提出了极高的领域适应性与逻辑连贯性要求；在构建过程中，团队需处理希腊语法律文本特有的复杂语法结构，将PDF格式的考试材料转化为结构化数据，并通过专业律师人工标注建立三维评分体系（事实理解、法条引用、分析论证）。此外，为确保评估可靠性，还需设计基于大语言模型的自动评分机制，并通过GBB-JME元评估基准验证其与人类专家评分的一致性。

常用场景

经典使用场景

在法学与自然语言处理的交叉领域，GreekBarBench数据集为研究者提供了一个独特的实验平台。该数据集通过模拟希腊律师资格考试的开放式答题场景，要求模型在给定案件事实和相关法律条文的基础上，生成包含明确引用的自由文本答案。这种设置特别适合评估大语言模型在复杂法律推理任务中的表现，包括多跳推理能力、法律条文准确引用能力以及综合分析能力。

实际应用

在实际应用中，GreekBarBench数据集可服务于多个重要场景。法律科技公司可利用该数据集开发智能法律助手，帮助律师快速检索相关判例和法条；法学院校可基于此构建模拟考试系统，辅助学生备考；司法机构也可借鉴其评估框架，用于自动化法律文书审查。这些应用显著提高了法律工作的效率和质量。

衍生相关工作

围绕该数据集已产生一系列创新性研究。最突出的工作包括基于Span-Judge提示的GPT-4.1-mini评估框架，其0.856的SPA分数展现了优异的评判能力。此外，研究者还开发了多维度评分系统，将法律答案解构为事实理解、条文引用和分析推理三个维度，为后续法律AI研究提供了可借鉴的方法论。这些衍生工作共同推动了法律智能评估技术的发展。

以上内容由遇见数据集搜集并总结生成