合成法律推理数据集

Name: 合成法律推理数据集
Creator: 南京大学
Published: 2025-02-10 23:40:35
License: 暂无描述

arXiv2025-02-10 更新2025-02-12 收录

下载链接：

https://anonymous.4open.science/r/KgDG-45F5

下载链接

链接失效反馈

官方服务：

资源简介：

合成法律推理数据集是由南京大学的研究团队使用KGDG框架生成的，包含5万个高质量的法律推理任务示例。数据集基于一个包含刑事和民事法律文书的知识库构建，通过引导生成具有问题-答案对和推理路径的合成数据，并经过验证和修正以确保质量。该数据集旨在提升开源LLM模型在法律推理任务上的性能，并已公开提供以促进未来研究。

The Synthetic Legal Reasoning Dataset, generated by a research team from Nanjing University using the KGDG framework, consists of 50,000 high-quality legal reasoning task examples. Built upon a knowledge base containing criminal and civil legal documents, this dataset produces synthetic data with question-answer pairs and reasoning paths via guided generation, and has been validated and revised to guarantee its quality. This dataset aims to improve the performance of open-source large language models (LLMs) on legal reasoning tasks, and has been publicly made available to promote future research.

提供机构：

南京大学

创建时间：

2025-02-10

搜集汇总

数据集介绍

构建方式

该数据集的构建方法基于KGDG框架，该框架包括三个关键组件：知识引导生成（KGGEN）、知识引导修复器（KGFIX）和数据验证器（DAVER）。KGGEN通过引入法律知识库K来生成多样化的数据，KGFIX用于纠正推理路径和引用中的错误，DAVER用于过滤出不正确的数据。此外，为了进一步提高训练模型的推理性能，还提出了一种混合训练（MITRA）策略，以扩大生成的数据集。

特点

该数据集的特点是具有高质量和多样化的数据，适用于法律推理任务。通过KGDG框架的三个组件，生成的数据具有多样性和高质量，并且经过验证和纠正，确保了数据的准确性。此外，该数据集还包括两种类型的训练数据：标准问题-答案对和具有明确推理路径的问题-答案对，这有助于提高模型的学习效率和推理能力。

使用方法

使用该数据集的方法是先使用KGDG框架生成高质量和多样化的法律推理数据集，然后使用该数据集训练法律LLM模型。在训练过程中，可以采用混合训练（MITRA）策略，以扩大生成的数据集并进一步提高模型的推理性能。训练完成后，可以使用训练好的模型进行法律推理任务，例如法律文件检索、法律判决预测和法律问答等。

背景与挑战

背景概述

在自然语言处理领域，大型语言模型（LLMs）在各类任务中展现出了惊人的能力，但在法律推理任务上却面临着显著的限制。私有模型存在数据隐私风险和高推理成本，而开源模型由于缺乏法律领域训练数据而表现不佳。为了克服这些限制，南京大学的研究团队提出了一种名为KGDG的知识引导数据生成框架，用于提高开源LLMs在法律推理任务上的性能。该框架利用私有LLMs来生成法律推理数据，并通过引入法律知识库来增强生成数据的多样性和质量。此外，该团队还创建了包含5万个高质量例子的合成法律推理数据集，并训练了一个名为LAWGPT的模型，该模型在法律推理任务上的性能优于现有的法律特定LLMs，并与私有LLMs相当。

当前挑战

合成法律推理数据集面临的主要挑战包括：1)私有LLMs缺乏法律知识，这限制了生成数据的多样性；2)法律推理数据难以形式化和验证，这使得在生成过程中难以检测和消除幻觉问题。为了解决这些挑战，KGDG框架采用了三个关键组件：1)知识引导生成(KGGEN)，利用法律知识库来增强生成数据的多样性；2)知识引导修复器(KGFIX)和数据验证器(DAVER)，用于修正可修复的错误并过滤掉不可修复的数据；3)混合训练(MITRA)策略，通过扩展生成数据集来进一步提高LLMs的推理能力。

常用场景

经典使用场景

合成法律推理数据集主要用于训练和评估大型语言模型在法律推理任务上的性能。该数据集通过知识引导的数据生成框架KGDG生成，旨在解决现有法律领域数据集不足的问题，以及私有LLMs在数据隐私和推理成本方面的限制。该数据集包含了50K高质量的法律推理示例，覆盖了多个法律推理任务，如基于场景的文章预测、刑期预测、犯罪损害计算等。

衍生相关工作

合成法律推理数据集的提出，促进了法律领域数据集的研究。该数据集的成功应用，为后续相关研究提供了参考和借鉴。此外，该数据集的生成框架KGDG也为其他领域的数据集生成提供了新的思路和方法。

数据集最近研究