five

DISC-Law-SFT 高质量中文法律监督微调数据集

收藏
超神经2024-09-05 更新2024-12-14 收录
下载链接:
https://hyper.ai/cn/datasets/33108
下载链接
链接失效反馈
资源简介:
DISC-Law-SFT 数据集是由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 于 2023 年构建的高质量监督微调 (Supervised Fine-Tuning, SFT) 数据集,用于训练和提升大型语言模型 (LLMs) 在法律领域的应用能力,包含近 30 万条训练数据。该数据集专为中文法律领域设计,旨在提高模型在法律文本处理、法律推理思维以及司法领域知识检索遵循等方面的能力。相关论文为「DISC-LawLLM: Fine-tuning Large Language Models for Intelligent Legal Services」

The DISC-Law-SFT dataset is a high-quality Supervised Fine-Tuning (SFT) dataset constructed by the Data Intelligence and Social Computing Laboratory at Fudan University (Fudan-DISC) in 2023. It is designed to train and enhance the legal domain application capabilities of Large Language Models (LLMs), containing nearly 300,000 training samples. This dataset is specifically tailored for the Chinese legal field, aiming to improve models' abilities in legal text processing, legal reasoning, and adherence to knowledge retrieval norms in the judicial domain. The associated paper is titled "DISC-LawLLM: Fine-tuning Large Language Models for Intelligent Legal Services"
创建时间:
2024-07-31
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
DISC-Law-SFT是一个由复旦大学数据智能与社会计算实验室于2023年构建的高质量中文法律监督微调数据集,包含近30万条训练数据,旨在提升大型语言模型在法律文本处理、推理思维和知识检索方面的能力。该数据集包括两个子集:DISC-Law-SFT-Pair通过法律三段论指令对引入推理能力,DISC-Law-SFT-Triplet通过三元组结构增强外部知识利用。数据来源多样,涵盖NLP司法任务公开数据集、真实法律文本和通用开源数据,确保了内容的丰富性和适用性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作