five

合成法律推理数据集|法律推理数据集|机器学习数据集

收藏
arXiv2025-02-10 更新2025-02-12 收录
法律推理
机器学习
下载链接:
https://anonymous.4open.science/r/KgDG-45F5
下载链接
链接失效反馈
资源简介:
合成法律推理数据集是由南京大学的研究团队使用KGDG框架生成的,包含5万个高质量的法律推理任务示例。数据集基于一个包含刑事和民事法律文书的知识库构建,通过引导生成具有问题-答案对和推理路径的合成数据,并经过验证和修正以确保质量。该数据集旨在提升开源LLM模型在法律推理任务上的性能,并已公开提供以促进未来研究。
提供机构:
南京大学
创建时间:
2025-02-10
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建方法基于KGDG框架,该框架包括三个关键组件:知识引导生成(KGGEN)、知识引导修复器(KGFIX)和数据验证器(DAVER)。KGGEN通过引入法律知识库K来生成多样化的数据,KGFIX用于纠正推理路径和引用中的错误,DAVER用于过滤出不正确的数据。此外,为了进一步提高训练模型的推理性能,还提出了一种混合训练(MITRA)策略,以扩大生成的数据集。
特点
该数据集的特点是具有高质量和多样化的数据,适用于法律推理任务。通过KGDG框架的三个组件,生成的数据具有多样性和高质量,并且经过验证和纠正,确保了数据的准确性。此外,该数据集还包括两种类型的训练数据:标准问题-答案对和具有明确推理路径的问题-答案对,这有助于提高模型的学习效率和推理能力。
使用方法
使用该数据集的方法是先使用KGDG框架生成高质量和多样化的法律推理数据集,然后使用该数据集训练法律LLM模型。在训练过程中,可以采用混合训练(MITRA)策略,以扩大生成的数据集并进一步提高模型的推理性能。训练完成后,可以使用训练好的模型进行法律推理任务,例如法律文件检索、法律判决预测和法律问答等。
背景与挑战
背景概述
在自然语言处理领域,大型语言模型(LLMs)在各类任务中展现出了惊人的能力,但在法律推理任务上却面临着显著的限制。私有模型存在数据隐私风险和高推理成本,而开源模型由于缺乏法律领域训练数据而表现不佳。为了克服这些限制,南京大学的研究团队提出了一种名为KGDG的知识引导数据生成框架,用于提高开源LLMs在法律推理任务上的性能。该框架利用私有LLMs来生成法律推理数据,并通过引入法律知识库来增强生成数据的多样性和质量。此外,该团队还创建了包含5万个高质量例子的合成法律推理数据集,并训练了一个名为LAWGPT的模型,该模型在法律推理任务上的性能优于现有的法律特定LLMs,并与私有LLMs相当。
当前挑战
合成法律推理数据集面临的主要挑战包括:1)私有LLMs缺乏法律知识,这限制了生成数据的多样性;2)法律推理数据难以形式化和验证,这使得在生成过程中难以检测和消除幻觉问题。为了解决这些挑战,KGDG框架采用了三个关键组件:1)知识引导生成(KGGEN),利用法律知识库来增强生成数据的多样性;2)知识引导修复器(KGFIX)和数据验证器(DAVER),用于修正可修复的错误并过滤掉不可修复的数据;3)混合训练(MITRA)策略,通过扩展生成数据集来进一步提高LLMs的推理能力。
常用场景
经典使用场景
合成法律推理数据集主要用于训练和评估大型语言模型在法律推理任务上的性能。该数据集通过知识引导的数据生成框架KGDG生成,旨在解决现有法律领域数据集不足的问题,以及私有LLMs在数据隐私和推理成本方面的限制。该数据集包含了50K高质量的法律推理示例,覆盖了多个法律推理任务,如基于场景的文章预测、刑期预测、犯罪损害计算等。
衍生相关工作
合成法律推理数据集的提出,促进了法律领域数据集的研究。该数据集的成功应用,为后续相关研究提供了参考和借鉴。此外,该数据集的生成框架KGDG也为其他领域的数据集生成提供了新的思路和方法。
数据集最近研究
最新研究方向
合成法律推理数据集的研究前沿主要聚焦于利用知识引导的数据生成技术,以提升开源大型语言模型在法律推理任务中的性能。在当前的研究中,提出了KGDG(知识引导的数据生成)框架,该框架通过引入法律知识库,有效地增加了生成数据的多样性,并通过精细化和验证过程确保了数据质量。此外,还提出了一种混合训练策略(MITRA),通过扩展生成的数据集来进一步提高模型推理能力。实验结果表明,基于KGDG框架训练的LAWGPT模型在多个法律推理任务上均优于现有的法律专用LLM,并达到了与私有LLM相当的性能水平。这些研究成果不仅展示了KGDG框架的有效性,也为法律领域的大型语言模型的发展提供了新的思路和方法。
相关研究论文
  • 1
    LawGPT: Knowledge-Guided Data Generation and Its Application to Legal LLM南京大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

ISIC 2018

ISIC 2018数据集包含2594张皮肤病变图像,用于皮肤癌检测任务。数据集分为训练集、验证集和测试集,每张图像都附有详细的元数据,包括病变类型、患者年龄、性别和解剖部位等信息。

challenge2018.isic-archive.com 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录