five

Bar Exam QA, Housing Statute QA

收藏
arXiv2025-05-07 更新2025-05-09 收录
下载链接:
https://dl.acm.org/doi/10.1145/3709025.3712219
下载链接
链接失效反馈
官方服务:
资源简介:
Bar Exam QA和Housing Statute QA是两个新的基准数据集,用于评估增强检索的语言模型。这两个数据集提供了约10K个标记的、成对的查询、黄金段落和答案示例,用于训练和评估语言模型在法律检索和检索增强下游QA任务上的表现。这些数据集的内容涵盖了各种法律领域的实质性法律问题,以及解释规则或段落,以证明答案的正确性。数据集的创建过程由法律专家、律师考试作家和法律学生手工注释和验证。这些数据集旨在解决法律检索和下游法律问答中的推理问题,并促进未来研究。

Bar Exam QA and Housing Statute QA are two novel benchmark datasets for evaluating retrieval-augmented language models. These datasets provide approximately 10,000 annotated, paired query, golden passage, and answer examples to support the training and evaluation of language models on legal retrieval and retrieval-augmented downstream QA tasks. The datasets cover substantive legal questions across various legal domains, alongside explanatory rules or passages that justify the correctness of the provided answers. The dataset creation process was manually annotated and verified by legal experts, bar exam writers, and law students. These datasets are intended to address reasoning challenges in legal retrieval and downstream legal QA, and to promote future research in this field.
提供机构:
斯坦福大学
创建时间:
2025-05-07
搜集汇总
数据集介绍
main_image_url
构建方式
Bar Exam QA和Housing Statute QA数据集的构建采用了法律专家手工标注的方法,模拟了现实法律研究过程。Bar Exam QA基于美国多州律师考试题目,由法律学生通过Westlaw法律数据库检索相关判例法段落作为黄金标注;Housing Statute QA则源自LSC驱逐法数据库,通过将原始问题转化为二元分类问题并匹配各州成文法条款构建而成。两个数据集均包含约10,000个经过严格验证的查询-黄金段落-答案三元组,标注过程耗时6-9个月,确保了数据的高质量和法律专业性。
特点
这两个数据集最显著的特点是查询与黄金段落间的词汇相似度极低(均值0.07-0.09),远低于常规开放域QA任务(0.25-0.27),体现了法律检索中需要的多跳推理和类比推理能力。数据集覆盖美国各州住房法和律师考试涉及的七大法律领域,包含180万条法律条文和90万条判例段落,规模远超现有法律检索基准。特别设计的二元分类答案格式便于自动评估,而人工标注的黄金段落则确保了法律论证的准确性。
使用方法
该数据集主要用于评估检索增强型语言模型在法律领域的表现。研究者可分别测试检索模块(召回率@K)和问答模块(答案准确率),或进行端到端评估。基准测试表明,传统检索方法如BM25在Recall@10指标上表现较差(5.03%-40.81%),而结合法律结构化推理的查询扩展方法可提升7-10个百分点。下游任务评估时,建议使用Llama-3或GPT-4等模型,通过黄金段落可获得57.38%(Bar Exam QA)和75.27%(Housing Statute QA)的准确率,展现了法律专业知识的应用价值。
背景与挑战
背景概述
Bar Exam QA和Housing Statute QA数据集由斯坦福大学的研究团队于2025年提出,旨在解决法律领域中检索增强生成(RAG)系统面临的挑战。随着大型语言模型(LLM)在法律领域的应用日益广泛,如何提高系统性能和鲁棒性成为关键问题。该数据集通过模拟真实法律研究任务,提供了约10,000个标注的查询-黄金段落-答案对,涵盖了美国多州律师考试题目和住房法规问题。其标注过程由法律学生和研究人员完成,确保了数据的高质量和实用性。该数据集的发布填补了法律RAG基准测试的空白,为法律AI开发者提供了重要的评估工具。
当前挑战
该数据集面临的主要挑战包括:1) 领域问题的复杂性,法律检索和问答任务通常需要多跳推理和类比推理,而查询与相关文档之间的词汇重叠较少,增加了检索难度;2) 构建过程中的挑战,包括标注高质量的法律黄金段落需要专业知识,且法律文本的不断更新要求数据集保持时效性;3) 现有基准测试的局限性,如缺乏真实的律师查询分布和下游问答评估,导致难以全面评估检索增强系统的性能。
常用场景
经典使用场景
在法律信息检索领域,Bar Exam QA和Housing Statute QA数据集为评估检索增强型大型语言模型(RAG)提供了专业基准。这些数据集通过模拟真实法律研究场景,如律师在处理多州律师考试(MBE)问题或住房法规查询时的检索与推理过程,填补了现有法律RAG评估工具的空白。其经典使用场景包括测试模型从判例法、成文法中检索相关段落的能力,并基于检索内容回答复杂法律问题,尤其擅长评估模型在查询与文档词汇重叠率低时的多跳推理能力。
解决学术问题
该数据集解决了法律AI领域三个关键学术问题:一是传统检索基准无法捕捉法律任务中普遍存在的低词汇相似性推理场景;二是现有法律数据集缺乏配对的问题-答案标注,难以评估检索对下游推理任务的影响;三是自动构建的查询-文档对偏离真实律师提问分布。通过引入人工标注的黄金段落和答案,数据集为衡量法律RAG系统的端到端性能提供了可靠标准,推动了法律检索与推理技术的协同发展。
衍生相关工作
该数据集已催生多项创新研究:在检索方法层面,启发提出了结合法律推理的查询扩展技术,如结构化法律推理提示(Structured Legal Reasoning Prompt);在模型架构方面,推动了针对低词汇相似场景的稠密检索模型优化(如E5-mistral-7b-instruct的适配);同时衍生出对法律幻觉现象的量化研究(如Large Legal Fictions工作)。数据集还被整合进LegalBench综合评估框架,成为衡量法律推理能力的核心组件之一。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作