five

LexRAG|法律咨询数据集|自然语言处理数据集

收藏
arXiv2025-02-28 更新2025-03-04 收录
法律咨询
自然语言处理
下载链接:
https://github.com/CSHaitao/LexRAG
下载链接
链接失效反馈
资源简介:
LexRAG是由清华大学知识工程实验室提出的首个针对多轮法律咨询对话中检索增强生成(RAG)系统的基准数据集。该数据集包含1013个经过法律专家精心标注的多轮对话样本,每个样本包含五轮逐步提问,以及17228篇候选法律文章。数据集覆盖了包括民法、刑法、合同法、知识产权法等多个法律领域的条文。LexRAG旨在为法律领域中的RAG系统提供一个标准化的评估平台,以促进RAG在法律咨询系统中的高质量应用。
提供机构:
清华大学
创建时间:
2025-02-28
AI搜集汇总
数据集介绍
main_image_url
构建方式
LexRAG数据集的构建过程首先从中国收集了222部常用的法律条文,并确保每个条文都是最新的版本。然后,对法律条文进行了标准化格式化,并创建了包含17,228篇法律文章的结构化检索语料库。接着,从现实世界的法律咨询平台收集了种子问题,以引导人工标注员构建和标注对话。为了确保数据集的质量,在标注过程开始之前,为所有法律专家提供了系统的培训。标注团队由11名来自中国的法律专家组成,他们均通过了中国的司法考试并拥有丰富的法律经验。在标注过程中,标注员从初始种子问题开始,并在后续的回合中鼓励他们自然地扩展对话,确保新问题逻辑上遵循现有的对话线索。为了支持标注过程,提供了一个方便的标注工具包,该工具包使用BM25算法从法律语料库中检索与当前问题相关的30篇法律文章,为标注员提供有价值的参考。此外,标注员可以直接访问完整的法律语料库,允许他们为每个问题手动选择最相关的法律文章。然后,标注员必须根据他们的法律专业知识提供详细的回复。他们还被要求在他们回复中突出显示关键词,并用相应的法律文章进行标注,以便于审查和分析。为了减少标注工作量,我们使用GPT-4o-mini从初始种子问题中预先生成10轮衍生问题,涵盖不同的视角。这些生成的问题作为示例,为标注员提供灵感。为了确保数据集的多样性和原创性,严格禁止直接复制。我们实施了一个彻底的审查过程,以确保标注数据的质量和可靠性。我们的金牌标注员从多个角度对每个标注进行了交叉验证。具体来说,他们评估问题是否逻辑连贯且合法有效,回复是否准确且符合法律原则,引用的法律文章是否相关且正确引用,关键词是否被适当地标注。任何不符合标准的标注都将由高级法律专家进行审查,以确保它们符合法律标准和最佳实践。如果发现任何问题,数据点将被退回进行修订和澄清。这个过程一直持续到两位标注员都同意为止。只有高质量标注才会被纳入最终的数据集。为了公平地奖励标注员的专长,我们为每个验证的问题-回复对支付0.42美元。在创建了5,065个对话后,总支付额为2,110美元。
特点
LexRAG数据集具有以下关键特点:法律专业知识。LexRAG中的所有回复都经过经验丰富的法律专家仔细标注和审查,以确保准确性和可靠性。此外,种子问题来自法律咨询平台,反映了现实世界的法律实践。多轮对话。在LexRAG中,每个对话都由五个互动回合组成。用户查询通常涉及代词解析、澄清和主题转换。这要求系统能够有效地跟踪对话历史并适应不断发展的法律环境。多样性。LexRAG涵盖了广泛的现实世界法律问题,包括27种查询类型,如交通事故、人身伤害和债务纠纷。检索语料库包括来自222部法规和规章的17,728条法律条款,确保了全面的法律覆盖范围,以便进行彻底的评估。基于引用的 grounding。LexRAG的一个关键特征是它专注于法律引用。大多数回复明确引用了法律文章,确保与权威来源的一致性。这种方法增强了透明度、可验证性,并突出了在法律咨询中准确的知识检索的重要性。
使用方法
LexRAG数据集的使用方法如下:数据预处理。首先,需要将法律条文进行标准化格式化,并创建一个结构化检索语料库。接着,从现实世界的法律咨询平台收集种子问题,以引导人工标注员构建和标注对话。标注过程。由经验丰富的法律专家组成的人工标注团队对对话进行标注。他们首先解析现实生活中的问题,并将其转换为关键的法定术语。然后,根据这些法定术语,使用提供的检索工具包或关键词匹配来识别相关的法律文章。接着,根据法律的逻辑,标注员鼓励通过引用相关的法律文章来回复。然后,他们需要根据回复生成新的问题,并模拟现实生活场景。最后,进行彻底的审查过程,以确保标注数据的质量和可靠性。评估工具包。LexiT是一个模块化和可扩展的RAG工具包,用于法律研究人员。它将RAG过程中的所有元素集成到一个统一的框架中,并支持独立应用。LexiT包括数据、管道和评估三个主要组件。数据组件由输入对话和语料库组成。管道组件由处理器、检索器和生成器组成。评估模块由检索评估器、生成评估器和LLM-as-a-judge组成。
背景与挑战
背景概述
LexRAG数据集是由清华大学DCST(智能计算与系统实验室)和Quan Cheng Laboratory的研究人员于2025年创建的。该数据集的提出旨在填补法律领域内检索增强生成(RAG)系统评估的空白,为多轮法律咨询对话提供了一个评估平台。LexRAG包含1013个多轮对话样本和17228个候选法律文章,每个样本由法律专家进行标注,并包含五轮逐步提问。数据集包括两个关键任务:对话知识检索和响应生成。LexRAG的提出对于推动法律AI技术的发展具有重要意义,为RAG系统在法律领域的应用奠定了基础。
当前挑战
LexRAG数据集面临的挑战主要包括:1)法律咨询的复杂性:法律咨询通常涉及逐步展开的问题,用户往往缺乏足够的法律知识,需要通过多轮对话进行澄清、确认和纠正。RAG系统必须有效处理之前互动中的无关信息,并有效管理话题的突然转变。2)法律知识的理解:在每一轮对话中,问题与法律知识的相关性不仅取决于词汇或语义相似性,还需要考虑上下文进行推理,识别法律逻辑和问题的重点以确定相关知识。3)评估的准确性:尽管一些基准已被创建来评估LLM在法律领域的性能,但它们通常专注于简单任务,如法律案例检索和判决预测,无法捕捉RAG在现实世界法律场景中所面临的复杂性。LexRAG通过引入LLM-as-a-judge评估管道,旨在实现详细且有效的评估,但由于法律文本的评估需要深刻的法律知识和复杂的推理,因此对评估系统的要求更高。
常用场景
经典使用场景
LexRAG 数据集被设计用于评估在多轮法律咨询对话中检索增强生成 (RAG) 系统的性能。该数据集包含 1,013 个多轮对话样本和 17,228 个候选法律文章。每个样本都由法律专家标注,并包括五个轮次的逐步提问。LexRAG 包括两个关键任务:1) 对话式知识检索,要求根据多轮上下文准确检索相关法律文章。2) 响应生成,专注于生成合法的答案。为了确保可靠的重复性,我们开发了 LexiT,一个专门为法律领域定制的 RAG 系统组件的综合实现工具包。此外,我们引入了 LLM-as-a-judge 评估流程,以实现详细和有效的评估。通过实验分析各种 LLM 和检索方法,我们揭示了现有 RAG 系统在处理法律咨询对话中的关键局限性。LexRAG 为法律领域 RAG 系统的实际应用建立了新的基准,其代码和数据可在 https://github.com/CSHaitao/LexRAG 上获得。
解决学术问题
LexRAG 数据集解决了现有 RAG 系统在法律领域应用的局限性,例如在处理复杂法律咨询对话时对无关信息的处理和主题切换的困难。该数据集为研究者和开发者提供了一个标准化的平台,用于评估检索和生成能力在复杂的法律咨询对话中的表现,从而推动了法律人工智能技术的发展,并为 RAG 在各个领域的未来发展奠定了基础。
衍生相关工作
LexRAG 数据集的发布和 LexiT 工具包的开发,推动了法律领域 RAG 系统的研究和开发。LexRAG 数据集的发布,为研究者提供了一个标准化的平台,用于评估检索和生成能力在复杂的法律咨询对话中的表现。LexiT 工具包的开发,为法律研究人员提供了一个模块化和可扩展的 RAG 工具包,支持独立的应用,为法律人工智能技术的发展和应用提供了有力的支持。这些相关工作不仅推动了法律人工智能技术的发展,也为其他领域 RAG 系统的研究和开发提供了有益的参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

Coffee_Shop_Sales

该数据集包含了咖啡店的详细交易信息,包括交易ID、日期、时间、店铺编号、位置、产品类别、类型、名称、价格、月份、日期、星期和小时等属性。数据集用于分析咖啡店的销售情况,如收入和交易量的变化趋势。

github 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

Movies Dataset

这个数据集包含电影的详细信息,包括电影名称、评分、类型、年份、发布日期、IMDb评分、投票数、导演、编剧、主演、制作国家、预算、总收入、制作公司和电影时长。

github 收录