HanFei数据集

github2023-05-30 更新2024-08-29 收录

下载链接：

https://github.com/siat-nlp/HanFei

下载链接

链接失效反馈

资源简介：

HanFei-1.0(韩非)是国内首个全参数训练的法律大模型，参数量7b，主要功能包括：法律问答、多轮对话、撰写文章、检索（敬请期待）等。数据集包含中文通用指令、中文法律指令、中文通用对话、中文法律对话、中文法律问答数据。

HanFei-1.0 (韩非) is the first fully parameter-trained legal large model in China, with a parameter size of 7 billion. Its main functions include legal Q&A, multi-turn dialogue, article writing, and retrieval (coming soon). The dataset contains Chinese general instructions, Chinese legal instructions, Chinese general dialogues, Chinese legal dialogues, and Chinese legal Q&A data.

提供机构：

中国科学院深圳先进技术研究院自然语言处理组

创建时间：

2023-05-30

原始信息汇总

HanFei数据集概述

数据集简介

名称：HanFei-1.0（韩非）
类型：法律领域大模型
参数量：7b
功能：法律问答、多轮对话、撰写文章、检索（开发中）

数据组成

预训练数据

内容：案例、法规、起诉状、法律新闻等
数据量：约60G，每条2048个token
处理脚本：src/data_processing/gen_pretrain_data.py

微调数据（hanfei 1.0）

数据类型	文件名称	数据量
中文通用指令	zh_general_instruction.json	5.3万
中文法律指令	zh_law_instruction.json	4.1万
中文通用对话	zh_general_conversation.json	5.5万
中文法律对话	zh_law_conversation.json	5.6万
中文法律问答数据	zh_law_qa.json	5万

评估数据

内容：包含劳动、婚姻等9个板块的法律问题
数据量：150条
路径：data/evaluation_dataset

数据下载

百度网盘：https://pan.baidu.com/s/1PkRXUo9sNRQmoXHcW7Aeeg?pwd=d6t5
提取码：d6t5

评估指标

方法：专业律师人工评分（0-10分）
对比模型：Hanfei、BLOOMz、ChatGPT
评估量：150个问题

训练与部署

训练要求

硬件：8张A100/A800
脚本：
- 预训练：scripts/pre_training/run_train.sh
- 指令微调：scripts/instruction_tuning/run_train.sh

部署要求

硬件：1张A100/A800（40G显存）或2张TITAN RTX
方式：
- Gradio界面：src/web/hanfei_app.py
- RESTful API：src/serve/hanfei_serve.py

项目团队

机构：中科院深圳先进院得理法律人工智能联合实验室、深圳市大数据研究院、港中文深圳
指导教师：王本友（助理教授）、杨敏（副研究员）

免责声明

用途限制：仅供学术研究，严禁商用
准确性声明：不保证模型输出准确性，不承担法律责任

引用格式

bibtex @misc{HanFei, author={Wanwei He et al.}, title={HanFei-1.0}, year={2023}, publisher={GitHub}, howpublished={url{https://github.com/siat-nlp/HanFei}}, }

搜集汇总

数据集介绍

构建方式

HanFei数据集的构建过程分为预训练和微调两个主要阶段。预训练数据包括案例、法规、起诉状和法律新闻等多种法律相关文本，总量约60G，每条数据包含2048个token。微调数据则通过规则筛选，涵盖中文通用指令、法律指令、通用对话、法律对话及法律问答等多个类别，共计约25.5万条数据。此外，HanFei 2.0版本正在开发中，将采用人工筛选以进一步提升数据质量。

特点

HanFei数据集的显著特点在于其全面性和专业性。作为国内首个全参数训练的法律大模型，它不仅涵盖了广泛的法律领域文本，还通过多轮对话和问答形式，模拟了实际法律咨询场景。此外，数据集的构建过程中采用了规则筛选和人工筛选相结合的方法，确保了数据的高质量和实用性。

使用方法

HanFei数据集的使用方法多样，既可用于法律领域的预训练，也可进行指令微调。用户可以通过提供的训练命令进行模型训练，并根据环境要求进行部署。数据集还提供了RESTful API和Gradio界面，便于开发者进行模型测试和应用开发。此外，数据集的评估部分提供了详细的评估指标和结果，帮助用户了解模型的性能。

背景与挑战

背景概述

HanFei数据集是国内首个全参数训练的法律大模型，由中科院深圳先进院得理法律人工智能联合实验室与深圳市大数据研究院、港中文深圳的团队合作开发。该数据集的核心研究问题是如何通过大规模数据训练提升法律领域的自然语言处理能力，包括法律问答、多轮对话、文章撰写等。HanFei-1.0的推出标志着法律领域在人工智能应用上的重要突破，其参数量达到7b，数据量约60G，每条数据包含2048个token，涵盖案例、法规、起诉状、法律新闻等多种类型。这一数据集的创建不仅推动了法律智能化的研究，也为相关领域的技术发展提供了宝贵的资源。

当前挑战

HanFei数据集在构建过程中面临多项挑战。首先，法律领域的数据具有高度专业性和复杂性，如何确保数据的准确性和全面性是一大难题。其次，数据处理过程中需要生成预训练数据和微调数据，这对数据处理技术提出了高要求。此外，模型评估方面，由于法律问题的特殊性，需要专业律师进行人工评估，这增加了评估的复杂性和成本。最后，尽管HanFei-1.0在法律问答和多轮对话等方面表现出色，但其应用仍需进一步验证和优化，特别是在处理复杂法律问题时的准确性和可靠性。

常用场景

经典使用场景

在法律领域，HanFei数据集的经典使用场景主要体现在其强大的法律问答和多轮对话功能上。通过该数据集，研究者和开发者能够训练出能够准确回答法律问题的模型，这些模型不仅能够处理复杂的法律条文，还能在多轮对话中保持上下文的连贯性，为法律咨询和法律教育提供了强有力的支持。

衍生相关工作

HanFei数据集的发布催生了一系列相关的经典工作，包括但不限于法律文本生成模型的优化、法律问答系统的改进以及法律对话模型的研究。这些工作不仅在学术界引起了广泛关注，也在实际应用中取得了显著成效。例如，基于HanFei数据集的研究成果已被应用于多个法律人工智能项目，推动了法律科技的进步和创新。

数据集最近研究