legal-eval

Hugging Face2026-04-07 更新2026-04-08 收录

下载链接：

https://huggingface.co/datasets/nguha/legal-eval

下载链接

链接失效反馈

官方服务：

资源简介：

Legal Eval 是一个统一的法律推理评估数据集，整合了多个法律推理基准测试，采用单一扁平化结构，旨在高效评估大型语言模型（LLM）。该数据集包含约 9,769 个样本，涵盖 202 个任务，来自 5 个源基准测试（LegalBench、BarExam、LEXam、HousingQA 和 Legal Hallucinations）。所有样本均预格式化为零样本提示，可直接发送给模型进行评估。数据集结构包含五个字段：`benchmark`（源基准测试名称）、`task_name`（具体任务名称）、`input`（完整的提示文本，已填充占位符）、`answer`（标准答案）和 `eval_method`（评分方法，如 `contained_in_output`、`all_in_output`、`any_in_output` 或 `numeric_within_1pct`）。数据集仅包含 `train` 分割，专用于评估。各基准测试特点如下： - **LegalBench**：159 个任务，涵盖合同分析、隐私政策、法规推理、判例法等，每个任务随机选取 50 个样本（或全部样本）。 - **BarExam**：包含 117 个美国多州律师考试多选题，直接使用全部样本。 - **LEXam**：229 个瑞士法律英语多选题，答案选项为 A 至 AF。 - **HousingQA**：1,473 个美国住房与驱逐法问题，附带相关法规文本，要求模型回答“是”或“否”。 - **Legal Hallucinations**：400 个美国联邦法院案例的事实召回任务，涉及法院判决、案例真实性、引用检索和推翻年份。适用任务包括法律问答、文本分类和法律推理基准测试。使用时需注意：`input` 字段不包含系统提示，建议在推理时添加指令（如“回答格式为‘答案是’后接答案”）以方便解析。

创建时间：

2026-04-04

原始信息汇总

Legal Eval 数据集概述

数据集基本信息

名称：Legal Eval
语言：英语 (en)
许可证：MIT
任务类别：问答、文本分类
标签：法律、法学、基准测试
数据规模：1K<n<10K
总样本量：约 9,769 个样本，涵盖 202 个任务
数据来源：5 个源基准测试
数据分割：仅包含一个 train 分割（专用于评估）

数据模式

每个数据行包含 5 列：

列名	描述
`benchmark`	源基准测试：`legalbench`、`barexam`、`lexam`、`housingqa` 或 `legal_hallucinations`
`task_name`	该基准测试内的具体任务名称
`input`	完整的零样本提示，可直接发送给模型（所有占位符已填充）
`answer`	标准答案
`eval_method`	评分方法：`contained_in_output`、`all_in_output`、`any_in_output` 或 `numeric_within_1pct`

注意：input 列不包含系统提示。在推理时，建议预置类似 "Answer with The answer is followed by your answer." 的指令以便解析。

包含的基准测试详情

LegalBench

来源：https://huggingface.co/datasets/nguha/legalbench-staging
内容：159 个任务，涵盖合同分析、隐私政策、法规推理、案例法等。
采样：每个任务 50 个样本（若总数不足则取全部），随机种子为 42。
提示构建：使用 task_metadata.json 中的零样本 instruction，并用行数据填充 {{placeholders}}。MAUD 任务添加 "Option A/B/..." 后缀。Yes/No 任务注入 Answer with "Yes" or "No".。SSLA 任务将答案转换为 JSON 数组。
排除任务：rule_qa、citation_prediction_classification、citation_prediction_open

BarExam

来源：https://huggingface.co/datasets/reglab/barexam_qa
内容：测试集中的全部 117 道 MBE（多州律师资格考试）选择题。
采样：全部 117 道题（未二次采样）。
提示构建：问题 + 四个带字母选项 + Answer with A, B, C, or D. + Answer:。
答案格式：单个字母 (A, B, C 或 D)。

LEXam

来源：https://huggingface.co/datasets/LEXam-Benchmark/LEXam
内容：来自 mcq_32_choices 配置的 229 道关于瑞士法律的英语选择题。
采样：全部 229 个英语行（德语问题已过滤）。
提示构建：问题 + 32 个带字母选项 (A 到 AF) + Answer with one of: A, B, C, ..., AF. + Answer:。
答案格式：字母 (A 到 AF)。

HousingQA

来源：https://huggingface.co/datasets/reglab/housing_qa
内容：涉及美国住房和驱逐法律的问答题，附带法规摘录。
采样：41 种问题类型 × 每种 50 个样本 = 1,473 个样本。
提示构建：相关法规（引用+摘录）+ 问题 + Answer with "Yes" or "No". + Answer:。
答案格式：Yes / No。

Legal Hallucinations

来源：https://huggingface.co/datasets/reglab/legal_hallucinations
内容：关于美国联邦法院案件的事实回忆任务。
采样：4 个任务 × 每个任务 100 个随机样本 = 400 个样本。
包含任务：
- affirm_reverse — 法院是维持还是撤销了下级法院的判决？
- case_existence — 这是一个真实案例吗？
- citation_retrieval — 此案例的正确引用是什么？
- year_overruled — 此案例在哪一年被推翻？
提示构建：直接使用数据集的 query 字段 + Answer:。

评估方法

方法	描述
`contained_in_output`	若 `answer` 作为子字符串出现在响应中，则通过
`all_in_output`	`answer` 为 JSON 数组；若所有项均出现在响应中，则通过
`any_in_output`	`answer` 为 JSON 数组；若任何一项出现在响应中，则通过
`numeric_within_1pct`	从响应中提取数字；若与 `answer` 相差在 1% 以内，则通过

使用方式

数据集可通过 load_dataset("nguha/legal-eval", split="train") 加载。可按 benchmark 或 task_name 进行筛选。

引用要求

使用此数据集时，请引用各个源基准测试的原始文献（详见 README 中的引用部分）。

搜集汇总

数据集介绍

构建方式

在法学与自然语言处理交叉领域，评估大型语言模型的法律推理能力需要高质量且标准化的数据集。Legal Eval数据集通过整合五个权威法律推理基准，构建了一个统一评估框架。其构建过程遵循严谨的抽样策略，例如从LegalBench中每个任务抽取50个样本，并采用随机种子确保可复现性。所有样本均经过预处理，将原始任务中的占位符填充为具体内容，并统一格式为零样本提示，直接适配模型输入。该过程剔除了部分特定任务，确保数据质量与评估焦点的一致性，最终形成了涵盖约9,769个样本的扁平化结构。

特点

该数据集的核心特征在于其高度的集成性与标准化设计。它汇聚了来自LegalBench、BarExam、LEXam、HousingQA及Legal Hallucinations的202个任务，覆盖合同分析、法规推理、案例法、律师考试选择题及事实核查等多种法律推理场景。每个样本均包含完整的输入提示、标准答案及指定的评估方法，实现了跨任务的统一评估接口。数据集特别提供了四种精细的评估方法，如子字符串匹配与数值容差判断，以适应不同任务类型的答案格式。这种设计显著提升了评估的效率与可比性，为系统化衡量模型的法律能力提供了坚实基础。

使用方法

使用该数据集时，研究者可通过Hugging Face的`datasets`库直接加载，并利用过滤功能按基准或具体任务选取子集。每个样本的`input`字段即为可直接馈送给模型的提示文本，但建议在推理前预置明确的系统指令以规范输出格式。模型生成回答后，需依据样本中的`eval_method`字段所指定的评分规则，将其与`answer`字段中的标准答案进行比对。例如，对于`contained_in_output`方法，仅需判断标准答案是否作为子串出现在模型输出中。这种即用型设计极大简化了评估流程，支持研究者快速进行大规模、多任务的性能测试与分析。

背景与挑战

背景概述

随着大语言模型在法律领域的应用日益广泛，对其专业推理能力进行系统评估的需求愈发迫切。Legal Eval数据集应运而生，由Neel Guha等研究人员于2023年后整合构建，旨在提供一个统一的评估框架，以高效衡量模型在复杂法律任务中的表现。该数据集汇聚了来自LegalBench、BarExam、LEXam、HousingQA及Legal Hallucinations五个权威基准的约9,769个样本，涵盖合同分析、法规推理、案例检索及幻觉检测等202项任务，显著推动了法律人工智能评估的标准化进程。

当前挑战

该数据集致力于解决法律领域大语言模型评估的核心挑战，即如何设计一个全面且高效的基准来测试模型在多样化、高专业性法律问题上的推理准确性。构建过程中，研究人员面临多重困难：需将不同来源、格式各异的基准数据统一为零样本提示的扁平化结构，并确保提示填充的准确性与一致性；同时，在采样策略上需平衡任务覆盖度与数据规模，例如对LegalBench任务进行每项50样本的随机抽样，并对多选答案格式进行标准化转换，以维持评估的公平性与可复现性。

常用场景

经典使用场景

在人工智能与法律交叉领域，评估大型语言模型的法律推理能力已成为一项关键任务。Legal-Eval数据集通过整合五个权威法律基准，构建了一个统一的零样本提示评估框架，为研究者提供了高效、标准化的模型性能测试平台。该数据集覆盖合同分析、法规解读、案例推理及事实核查等多种任务，其经典使用场景在于系统性地衡量模型在复杂法律语境下的准确性与可靠性，从而推动法律智能技术的科学化发展。

实际应用

在法律科技实践中，Legal-Eval数据集为法律问答系统、合同智能审查工具及法规合规分析平台提供了核心评估依据。通过模拟真实法律场景中的多项选择题、事实判断及法规引用等任务，该数据集能够帮助开发者检验模型在住房租赁法规、联邦案例检索等具体领域的实用性。其应用直接关联到提升法律服务的自动化水平与准确性，为法律研究机构、科技公司及教育机构提供了可靠的性能基准，助力法律智能产品在实际部署前的有效验证。

衍生相关工作

围绕Legal-Eval数据集，学术界衍生了一系列聚焦法律大模型评估的经典研究。例如，LegalBench工作系统构建了多维法律任务分类体系；BarExam与LEXam研究深入探索了模型在法律资格考试中的表现；HousingQA专注于成文法推理评估；而Legal Hallucinations则开创了法律事实幻觉检测的新方向。这些工作共同丰富了法律人工智能的评估维度，促进了模型鲁棒性、可解释性及领域适应性的跨基准比较，为后续法律推理模型的优化与创新奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集