five

LexRAG对话数据集|法律文本分析数据集|对话系统数据集

收藏
github2025-03-03 更新2025-03-08 收录
法律文本分析
对话系统
下载链接:
https://github.com/CSHaitao/LexRAG
下载链接
链接失效反馈
资源简介:
该数据集包含1013个多轮对话,每个对话有5轮问题和回答。此外,还收集了来自三个不同来源的原始数据,包括法律文章、法律书籍和法律案例,作为研究人员的便利。

This dataset encompasses 1013 multi-turn dialogues, each with 5 rounds of questions and answers. Additionally, original data from three distinct sources, including legal articles, legal books, and legal cases, have been collected for the convenience of researchers.
创建时间:
2025-02-10
原始信息汇总

LexRAG 数据集概述

数据集简介

LexRAG 是一个用于法律领域检索增强生成(Retrieval-Augmented Generation, RAG)的基准数据集。该数据集通过 LexiT 工具包提供,包含用于多轮法律咨询对话的数据、管道处理工具和评估方法。

数据组件

  • 多轮对话:数据集包含 1,013 个多轮对话,每个对话有 5 轮问题和回答。
  • 语料库:包含来自三个不同来源的原始数据,包括法律文章、法律书籍和法律案例。法律文章包含 17,228 条中国法定法律条文。
  • 存储路径
    • 对话数据:./data/dataset.json
    • 语料库数据:./data/law_library.jsonl

管道组件

处理器(Processor)

  • 转换对话为查询,支持多种查询构建策略。
  • 处理器配置和运行示例见 ./src/pipeline.py

检索器(Retriever)

  • 支持密集检索和稀疏检索。
  • 密集检索使用 Faiss 索引,支持 BGE 和 GTE 模型。
  • 稀疏检索使用 Pyserini 库实现 BM25 和 QLD。
  • 检索结果存储路径:./data/retrieval/

生成器(Generator)

  • 支持主流语言模型生成回答。
  • 支持自定义输入提示。
  • 生成结果存储路径:./data/generated_responses.jsonl

评估组件

  • 生成评估器:支持 ROUGE、BLEU、METEOR 和 BERTScore 等自动化指标。
  • 检索评估器:支持 NDCG、Recall、MRR、Precision 和 F1 等指标。
  • LLM 评估:通过多维度链式思维推理评估回答质量。

以上信息基于 LexRAG 数据集的 README 文件内容整理而成。

AI搜集汇总
数据集介绍
main_image_url
构建方式
LexRAG对话数据集的构建方式包括收集多轮对话数据以及相关法律条文作为语料库。对话数据涵盖了5轮的问题与回答,而法律条文则来源于中国的各种法规,包括法律文章、法律书籍和法律案例,为研究者提供了丰富的信息资源。
使用方法
使用该数据集时,用户可以通过Processor模块对对话数据进行预处理,Retriever模块进行密集或稀疏检索,Generator模块利用预训练的语言模型生成回答。此外,还提供了多种评价指标和评估方法,以便研究者对生成的回答和检索的结果进行评估。
背景与挑战
背景概述
LexRAG对话数据集,专为法律领域检索增强生成研究设计。该数据集由多个研究机构共同研发,创建于近年来,旨在促进多轮法律咨询对话中检索增强生成系统的性能评估与优化。数据集包含了1013次多轮对话,每轮对话中均含有问题与回答,并提供了法律文章、法律书籍和法律案例三种类型的语料库,其中法律文章包含了17228条来自中国各类法律的规定。LexRAG对话数据集的出现,为法律领域对话系统的研发提供了宝贵的实验资源,推动了该领域的研究进展。
当前挑战
该数据集在构建过程中面临的挑战主要包括:1) 法律领域的专业性和复杂性使得构建适用于多轮对话的检索增强生成系统具有难度;2) 如何准确有效地从大量法律文献中检索出相关信息,以及如何生成既合法又符合用户需求的回答。此外,数据集在解决法律领域问题方面也面临挑战,例如确保系统的准确性和可靠性,满足法律咨询的严谨性和实时性要求。
常用场景
经典使用场景
LexRAG对话数据集是专为法律领域设计的检索增强生成模型的数据集。其经典使用场景在于模拟多轮法律咨询对话,通过检索相关法条并为用户提供准确的回答,有效地提升了法律咨询的自动化水平。
解决学术问题
该数据集解决了传统法律咨询系统中缺乏上下文理解能力和法条检索不精准的问题,为学术研究提供了深入分析多轮对话中信息检索与生成策略交互的绝佳案例,推动了法律领域自然语言处理技术的发展。
实际应用
在实际应用中,LexRAG对话数据集可用于构建智能法律助手,为用户提供实时的法律咨询与服务,减少法律咨询的成本,提高咨询效率,同时保证回答的准确性和合规性。
数据集最近研究
最新研究方向
LexRAG对话数据集是针对法律领域检索增强生成任务而构建的,其最新研究方向主要集中在如何提高多轮法律咨询对话中自动回答的准确性与相关性。该数据集通过整合检索与生成技术,实现了对话历史与法律条文的有效结合,为法律咨询场景下的自动对话系统提供了基准。当前研究不仅关注了密集检索与稀疏检索两种策略,还通过不同的评价指标对生成响应的质量进行了细致评估,这为法律领域对话系统的性能提升与优化指明了方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录