DISC-Law-SFT 高质量中文法律监督微调数据集

超神经2024-09-05 更新2024-12-14 收录

下载链接：

https://hyper.ai/cn/datasets/33108

下载链接

链接失效反馈

资源简介：

DISC-Law-SFT 数据集是由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 于 2023 年构建的高质量监督微调 (Supervised Fine-Tuning, SFT) 数据集，用于训练和提升大型语言模型 (LLMs) 在法律领域的应用能力，包含近 30 万条训练数据。该数据集专为中文法律领域设计，旨在提高模型在法律文本处理、法律推理思维以及司法领域知识检索遵循等方面的能力。相关论文为「DISC-LawLLM: Fine-tuning Large Language Models for Intelligent Legal Services」

The DISC-Law-SFT dataset is a high-quality Supervised Fine-Tuning (SFT) dataset constructed by the Data Intelligence and Social Computing Laboratory at Fudan University (Fudan-DISC) in 2023. It is designed to train and enhance the legal domain application capabilities of Large Language Models (LLMs), containing nearly 300,000 training samples. This dataset is specifically tailored for the Chinese legal field, aiming to improve models' abilities in legal text processing, legal reasoning, and adherence to knowledge retrieval norms in the judicial domain. The associated paper is titled "DISC-LawLLM: Fine-tuning Large Language Models for Intelligent Legal Services"

创建时间：

2024-07-31

搜集汇总

数据集介绍

背景与挑战

背景概述

DISC-Law-SFT是一个由复旦大学数据智能与社会计算实验室于2023年构建的高质量中文法律监督微调数据集，包含近30万条训练数据，旨在提升大型语言模型在法律文本处理、推理思维和知识检索方面的能力。该数据集包括两个子集：DISC-Law-SFT-Pair通过法律三段论指令对引入推理能力，DISC-Law-SFT-Triplet通过三元组结构增强外部知识利用。数据来源多样，涵盖NLP司法任务公开数据集、真实法律文本和通用开源数据，确保了内容的丰富性和适用性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集