LexRAG对话数据集

github2025-03-03 更新2025-03-08 收录

下载链接：

https://github.com/CSHaitao/LexRAG

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1013个多轮对话，每个对话有5轮问题和回答。此外，还收集了来自三个不同来源的原始数据，包括法律文章、法律书籍和法律案例，作为研究人员的便利。

This dataset encompasses 1013 multi-turn dialogues, each with 5 rounds of questions and answers. Additionally, original data from three distinct sources, including legal articles, legal books, and legal cases, have been collected for the convenience of researchers.

创建时间：

2025-02-10

原始信息汇总

LexRAG 数据集概述

数据集简介

LexRAG 是一个用于法律领域检索增强生成（Retrieval-Augmented Generation, RAG）的基准数据集。该数据集通过 LexiT 工具包提供，包含用于多轮法律咨询对话的数据、管道处理工具和评估方法。

数据组件

多轮对话：数据集包含 1,013 个多轮对话，每个对话有 5 轮问题和回答。
语料库：包含来自三个不同来源的原始数据，包括法律文章、法律书籍和法律案例。法律文章包含 17,228 条中国法定法律条文。
存储路径：
- 对话数据：./data/dataset.json
- 语料库数据：./data/law_library.jsonl

管道组件

处理器（Processor）

转换对话为查询，支持多种查询构建策略。
处理器配置和运行示例见 ./src/pipeline.py。

检索器（Retriever）

支持密集检索和稀疏检索。
密集检索使用 Faiss 索引，支持 BGE 和 GTE 模型。
稀疏检索使用 Pyserini 库实现 BM25 和 QLD。
检索结果存储路径：./data/retrieval/。

生成器（Generator）

支持主流语言模型生成回答。
支持自定义输入提示。
生成结果存储路径：./data/generated_responses.jsonl。

评估组件

生成评估器：支持 ROUGE、BLEU、METEOR 和 BERTScore 等自动化指标。
检索评估器：支持 NDCG、Recall、MRR、Precision 和 F1 等指标。
LLM 评估：通过多维度链式思维推理评估回答质量。

以上信息基于 LexRAG 数据集的 README 文件内容整理而成。

搜集汇总

数据集介绍

构建方式

LexRAG对话数据集的构建方式包括收集多轮对话数据以及相关法律条文作为语料库。对话数据涵盖了5轮的问题与回答，而法律条文则来源于中国的各种法规，包括法律文章、法律书籍和法律案例，为研究者提供了丰富的信息资源。

使用方法

使用该数据集时，用户可以通过Processor模块对对话数据进行预处理，Retriever模块进行密集或稀疏检索，Generator模块利用预训练的语言模型生成回答。此外，还提供了多种评价指标和评估方法，以便研究者对生成的回答和检索的结果进行评估。

背景与挑战

背景概述

LexRAG对话数据集，专为法律领域检索增强生成研究设计。该数据集由多个研究机构共同研发，创建于近年来，旨在促进多轮法律咨询对话中检索增强生成系统的性能评估与优化。数据集包含了1013次多轮对话，每轮对话中均含有问题与回答，并提供了法律文章、法律书籍和法律案例三种类型的语料库，其中法律文章包含了17228条来自中国各类法律的规定。LexRAG对话数据集的出现，为法律领域对话系统的研发提供了宝贵的实验资源，推动了该领域的研究进展。

当前挑战

该数据集在构建过程中面临的挑战主要包括：1) 法律领域的专业性和复杂性使得构建适用于多轮对话的检索增强生成系统具有难度；2) 如何准确有效地从大量法律文献中检索出相关信息，以及如何生成既合法又符合用户需求的回答。此外，数据集在解决法律领域问题方面也面临挑战，例如确保系统的准确性和可靠性，满足法律咨询的严谨性和实时性要求。

常用场景

经典使用场景

LexRAG对话数据集是专为法律领域设计的检索增强生成模型的数据集。其经典使用场景在于模拟多轮法律咨询对话，通过检索相关法条并为用户提供准确的回答，有效地提升了法律咨询的自动化水平。

解决学术问题

该数据集解决了传统法律咨询系统中缺乏上下文理解能力和法条检索不精准的问题，为学术研究提供了深入分析多轮对话中信息检索与生成策略交互的绝佳案例，推动了法律领域自然语言处理技术的发展。

实际应用

在实际应用中，LexRAG对话数据集可用于构建智能法律助手，为用户提供实时的法律咨询与服务，减少法律咨询的成本，提高咨询效率，同时保证回答的准确性和合规性。

数据集最近研究