fuzi-mingcha-v1_0-data

Hugging Face2024-09-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/SDUIRLab/fuzi-mingcha-v1_0-data

下载链接

链接失效反馈

官方服务：

资源简介：

夫子•明察司法大模型微调训练数据集包含四类数据：通用微调数据、基于法条的问答数据、案例检索与分析数据、三段论判决数据。数据集大小约为1.12GB，适用于文本生成任务。

创建时间：

2024-09-17

原始信息汇总

夫子•明察司法大模型微调训练数据归档

数据信息

数据集主要分为四类：

通用微调数据集
基于法条的问答数据集
案例检索、案例分析类数据集
三段论判决数据集

数据集目录

Directory	Filename	Num Samples
.	oaast_sft_zh.json	689
alpaca	alpaca_data_zh_51k.json	5,000
alpaca	alpaca_gpt4_data_zh.json	5,000
belle	belle.jsonl	10,000
cail2021_rc	cail_21_rc.jsonl	4,200
cail2022_summarization.wo_art	cail_22_summarization.jsonl	5,750
case_retrieval	new_candidates.jsonl	9,208
case_retrieval	new_pretrain.jsonl	6,026
case_retrieval	new_query.jsonl	107
case_retrieval	query.jsonl	107
hanfei	zh_law_conversation_v2.jsonl	20,000
hanfei	zh_law_instruction_v2.jsonl	20,000
lawGPT_zh	lawgpt4analyse_v2.jsonl	15,000
lawGPT_zh	lawgpt4answer_v2.jsonl	10,000
lawGPT_zh	lawgpt4fatiao_v2.jsonl	10,000
lawyerllama	lawyer_llama_4analyse_v1.jsonl	1,000
lawyerllama	lawyer_llama_4answer_v1.jsonl	1,000
lawyerllama	lawyer_llama_4fatiao_v1.jsonl	1,000
lawyerllama_counsel	legal_advice.json	3,000
lawyerllama_counsel	legal_counsel_v2.json	5,000
OL_CC	OL_CC.jsonl	10006
pretrain_judge_w_article	judge_w_article_v6.jsonl	15,000
pretrain_small_law	complement.json	12,000
pretrain_small_law	pretrain_case.json	52
pretrain_small_law	query_item.json	20,000
syllogism[1]	legal_article.json	11,237
syllogism[1]	syllogism.json	11,237

注 1：三段论推理数据集已发表在 EMNLP 2023，详细信息请参考论文代码。

数据来源

case_retrieval 目录下的数据集通过爬取的裁判文书数据进行构建，结合 ChatGPT 构建部分 query。
pretrain_* 目录下的数据由预训练数据（裁判文书、法律法规等）构造完成。
syllogism 目录下数据来源见注 1。
其他数据收集整理和筛选于网络公开信息。

如何使用

若您想将数据集用于您的模型训练，您可以克隆本仓库，以下命令为 huggingface 网站提供的提示。

bash

Make sure you have git-lfs installed (https://git-lfs.com)

git lfs install

When prompted for a password, use an access token with write permissions.

Generate one from your settings: https://huggingface.co/settings/tokens

git clone https://huggingface.co/datasets/SDUIRLab/fuzi-mingcha-v1_0-data

请确保您的磁盘空间足够存储数据集，数据集大小约为 1.12GB。

致谢

本项目基于如下开源项目展开，在此对相关项目和开发人员表示感谢：

声明

本项目的内容仅供学术研究之用，不得用于商业或其他可能对社会造成危害的用途。在涉及第三方代码的使用时，请切实遵守相关的开源协议。本项目中大模型提供的法律问答、判决预测等功能仅供参考，不构成法律意见。如果您需要法律援助等服务，请寻求专业的法律从业者的帮助。

协议

本仓库的代码依照 Apache-2.0 协议开源，我们对 ChatGLM-6B 模型的权重的使用遵循 Model License。

引用

如果本项目有帮助到您的研究，请引用我们：

@misc{fuzi.mingcha, title={fuzi.mingcha}, author={Shiguang Wu, Zhongkun Liu, Zhen Zhang, Zheng Chen, Wentao Deng, Wenhao Zhang, Jiyuan Yang, Zhitao Yao, Yougang Lyu, Xin Xin, Shen Gao, Pengjie Ren, Zhaochun Ren, Zhumin Chen} year={2023}, publisher={GitHub}, journal={GitHub repository}, howpublished={url{https://github.com/irlab-sdu/fuzi.mingcha}}, }

@inproceedings{deng-etal-2023-syllogistic, title = {Syllogistic Reasoning for Legal Judgment Analysis}, author = {Deng, Wentao and Pei, Jiahuan and Kong, Keyi and Chen, Zhe and Wei, Furu and Li, Yujun and Ren, Zhaochun and Chen, Zhumin and Ren, Pengjie}, year = 2023, month = dec, booktitle = {Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing}, publisher = {Association for Computational Linguistics}, address = {Singapore}, pages = {13997--14009}, doi = {10.18653/v1/2023.emnlp-main.864}, url = {https://aclanthology.org/2023.emnlp-main.864}, editor = {Bouamor, Houda and Pino, Juan and Bali, Kalika} }

搜集汇总

数据集介绍

构建方式

fuzi-mingcha-v1_0-data数据集的构建过程体现了多源数据融合与结构化处理的科学方法。数据集主要分为四类：通用微调数据集、基于法条的问答数据集、案例检索与案例分析类数据集以及三段论判决数据集。其中，案例检索数据通过爬取裁判文书并结合ChatGPT生成部分查询构建；预训练数据则基于裁判文书和法律法规进行构造；三段论推理数据则通过自主构建的法律推理框架生成，并已在EMNLP 2023会议上发表。其他数据则通过整合网络公开信息，如Alpaca、BELLE、CAIL等开源项目，确保了数据的多样性和权威性。

特点

fuzi-mingcha-v1_0-data数据集的特点在于其丰富的法律领域覆盖和高质量的结构化数据。数据集不仅包含大量中文法律文本，还涵盖了从法条问答到案例检索、从三段论推理到判决预测的多种任务类型。特别值得一提的是，三段论推理数据的构建基于法律推理的标准形式，确保了逻辑的严谨性和实用性。此外，数据集还整合了多个开源项目的数据，如Alpaca、BELLE和CAIL等，进一步提升了数据的多样性和适用性。

使用方法

fuzi-mingcha-v1_0-data数据集的使用方法简便且灵活。用户可以通过HuggingFace平台直接克隆数据集，确保安装git-lfs以支持大文件下载。数据集大小约为1.12GB，建议用户确保足够的磁盘空间。推荐使用LLaMA-Factory框架进行模型训练，该框架提供了对数据集的优化支持。用户可通过提供的`dataset_info.json`文件快速配置训练任务。此外，数据集的开源协议为Apache-2.0，用户需遵守相关协议并确保仅用于学术研究。

背景与挑战

背景概述

fuzi-mingcha-v1_0-data数据集是由山东大学信息检索实验室（SDUIRLab）于2023年发布的一个专注于法律领域的文本生成数据集。该数据集旨在支持法律领域的自然语言处理任务，特别是司法判决分析、法律问答和案例检索等任务。数据集的构建基于多种来源，包括公开的裁判文书、法律法规以及通过ChatGPT生成的问答数据。该数据集的核心研究问题在于如何通过大规模的法律文本数据提升法律智能系统的推理能力和判决预测准确性。其研究成果已在EMNLP 2023会议上发表，展示了三段论推理在法律判决分析中的应用，进一步推动了法律领域的人工智能研究。

当前挑战

fuzi-mingcha-v1_0-data数据集在构建和应用过程中面临多重挑战。首先，法律文本的复杂性和专业性要求数据集的构建必须确保高质量的法律知识覆盖，这对数据的收集和标注提出了极高的要求。其次，法律领域的文本生成任务需要模型具备强大的推理能力，尤其是三段论推理的应用，要求模型能够准确理解法条与案情之间的逻辑关系。此外，数据集的构建还面临数据来源的多样性和一致性挑战，如何整合来自不同司法管辖区的裁判文书和法律法规，确保数据的统一性和适用性，是构建过程中的一大难题。最后，数据集的规模较大，存储和处理这些数据对计算资源提出了较高的要求，如何在有限资源下高效训练模型也是一个亟待解决的问题。

常用场景

经典使用场景

在司法领域，夫子•明察司法大模型微调训练数据集广泛应用于法律文本生成任务。该数据集通过提供丰富的法律问答、案例检索和判决推理数据，支持模型在法律文本生成中的精确性和逻辑性。特别是在三段论推理任务中，数据集通过大前提、小前提和结论的结构化数据，帮助模型更好地理解和生成符合法律逻辑的文本。

实际应用

在实际应用中，夫子•明察司法大模型微调训练数据集被广泛用于法律咨询、判决预测和案例检索等场景。通过该数据集训练的模型能够为法律从业者提供高效的法律文本生成服务，帮助他们在短时间内获取相关法律条文和案例信息。此外，该数据集还支持法律教育领域，为学生提供丰富的法律文本生成练习素材。

衍生相关工作

夫子•明察司法大模型微调训练数据集衍生了一系列经典工作，特别是在法律文本生成和推理领域。例如，基于该数据集的三段论推理方法在EMNLP 2023会议上发表，展示了其在法律判决分析中的应用。此外，该数据集还支持了多个开源项目，如LawGPT和Lawyer LLaMA，推动了法律文本生成技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集