five

HanFei数据集|法律大模型数据集|自然语言处理数据集

收藏
github2023-05-30 更新2024-08-29 收录
法律大模型
自然语言处理
下载链接:
https://github.com/siat-nlp/HanFei
下载链接
链接失效反馈
资源简介:
HanFei-1.0(韩非)是国内首个全参数训练的法律大模型,参数量7b,主要功能包括:法律问答、多轮对话、撰写文章、检索(敬请期待)等。数据集包含中文通用指令、中文法律指令、中文通用对话、中文法律对话、中文法律问答数据。

HanFei-1.0 (韩非) is the first fully parameter-trained legal large model in China, with a parameter size of 7 billion. Its main functions include legal Q&A, multi-turn dialogue, article writing, and retrieval (coming soon). The dataset contains Chinese general instructions, Chinese legal instructions, Chinese general dialogues, Chinese legal dialogues, and Chinese legal Q&A data.
提供机构:
中国科学院深圳先进技术研究院自然语言处理组
创建时间:
2023-05-30
原始信息汇总

HanFei数据集概述

数据集简介

  • 名称:HanFei-1.0(韩非)
  • 类型:法律领域大模型
  • 参数量:7b
  • 功能:法律问答、多轮对话、撰写文章、检索(开发中)

数据组成

预训练数据

  • 内容:案例、法规、起诉状、法律新闻等
  • 数据量:约60G,每条2048个token
  • 处理脚本src/data_processing/gen_pretrain_data.py

微调数据(hanfei 1.0)

数据类型 文件名称 数据量
中文通用指令 zh_general_instruction.json 5.3万
中文法律指令 zh_law_instruction.json 4.1万
中文通用对话 zh_general_conversation.json 5.5万
中文法律对话 zh_law_conversation.json 5.6万
中文法律问答数据 zh_law_qa.json 5万

评估数据

  • 内容:包含劳动、婚姻等9个板块的法律问题
  • 数据量:150条
  • 路径data/evaluation_dataset

数据下载

  • 百度网盘:https://pan.baidu.com/s/1PkRXUo9sNRQmoXHcW7Aeeg?pwd=d6t5
  • 提取码:d6t5

评估指标

  • 方法:专业律师人工评分(0-10分)
  • 对比模型:Hanfei、BLOOMz、ChatGPT
  • 评估量:150个问题

训练与部署

训练要求

  • 硬件:8张A100/A800
  • 脚本
    • 预训练:scripts/pre_training/run_train.sh
    • 指令微调:scripts/instruction_tuning/run_train.sh

部署要求

  • 硬件:1张A100/A800(40G显存)或2张TITAN RTX
  • 方式
    • Gradio界面:src/web/hanfei_app.py
    • RESTful API:src/serve/hanfei_serve.py

项目团队

  • 机构:中科院深圳先进院得理法律人工智能联合实验室、深圳市大数据研究院、港中文深圳
  • 指导教师:王本友(助理教授)、杨敏(副研究员)

免责声明

  • 用途限制:仅供学术研究,严禁商用
  • 准确性声明:不保证模型输出准确性,不承担法律责任

引用格式

bibtex @misc{HanFei, author={Wanwei He et al.}, title={HanFei-1.0}, year={2023}, publisher={GitHub}, howpublished={url{https://github.com/siat-nlp/HanFei}}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
HanFei数据集的构建过程分为预训练和微调两个主要阶段。预训练数据包括案例、法规、起诉状和法律新闻等多种法律相关文本,总量约60G,每条数据包含2048个token。微调数据则通过规则筛选,涵盖中文通用指令、法律指令、通用对话、法律对话及法律问答等多个类别,共计约25.5万条数据。此外,HanFei 2.0版本正在开发中,将采用人工筛选以进一步提升数据质量。
特点
HanFei数据集的显著特点在于其全面性和专业性。作为国内首个全参数训练的法律大模型,它不仅涵盖了广泛的法律领域文本,还通过多轮对话和问答形式,模拟了实际法律咨询场景。此外,数据集的构建过程中采用了规则筛选和人工筛选相结合的方法,确保了数据的高质量和实用性。
使用方法
HanFei数据集的使用方法多样,既可用于法律领域的预训练,也可进行指令微调。用户可以通过提供的训练命令进行模型训练,并根据环境要求进行部署。数据集还提供了RESTful API和Gradio界面,便于开发者进行模型测试和应用开发。此外,数据集的评估部分提供了详细的评估指标和结果,帮助用户了解模型的性能。
背景与挑战
背景概述
HanFei数据集是国内首个全参数训练的法律大模型,由中科院深圳先进院得理法律人工智能联合实验室与深圳市大数据研究院、港中文深圳的团队合作开发。该数据集的核心研究问题是如何通过大规模数据训练提升法律领域的自然语言处理能力,包括法律问答、多轮对话、文章撰写等。HanFei-1.0的推出标志着法律领域在人工智能应用上的重要突破,其参数量达到7b,数据量约60G,每条数据包含2048个token,涵盖案例、法规、起诉状、法律新闻等多种类型。这一数据集的创建不仅推动了法律智能化的研究,也为相关领域的技术发展提供了宝贵的资源。
当前挑战
HanFei数据集在构建过程中面临多项挑战。首先,法律领域的数据具有高度专业性和复杂性,如何确保数据的准确性和全面性是一大难题。其次,数据处理过程中需要生成预训练数据和微调数据,这对数据处理技术提出了高要求。此外,模型评估方面,由于法律问题的特殊性,需要专业律师进行人工评估,这增加了评估的复杂性和成本。最后,尽管HanFei-1.0在法律问答和多轮对话等方面表现出色,但其应用仍需进一步验证和优化,特别是在处理复杂法律问题时的准确性和可靠性。
常用场景
经典使用场景
在法律领域,HanFei数据集的经典使用场景主要体现在其强大的法律问答和多轮对话功能上。通过该数据集,研究者和开发者能够训练出能够准确回答法律问题的模型,这些模型不仅能够处理复杂的法律条文,还能在多轮对话中保持上下文的连贯性,为法律咨询和法律教育提供了强有力的支持。
衍生相关工作
HanFei数据集的发布催生了一系列相关的经典工作,包括但不限于法律文本生成模型的优化、法律问答系统的改进以及法律对话模型的研究。这些工作不仅在学术界引起了广泛关注,也在实际应用中取得了显著成效。例如,基于HanFei数据集的研究成果已被应用于多个法律人工智能项目,推动了法律科技的进步和创新。
数据集最近研究
最新研究方向
在法律智能领域,HanFei数据集的最新研究方向主要集中在全参数训练的法律大模型的优化与应用。该数据集通过整合案例、法规、起诉状及法律新闻等多种数据源,构建了一个包含约60G数据的预训练模型,旨在提升法律问答、多轮对话及文章撰写等功能的准确性与效率。前沿研究不仅关注模型的微调与指令生成,还涉及模型在实际法律咨询中的应用评估,通过专业律师的评分体系,对HanFei、BLOOMz及ChatGPT等模型进行对比分析,以期在法律智能服务中实现更高的专业性和用户满意度。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

DAT

DAT是一个统一的跨场景跨领域基准,用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景,以评估算法的跨场景和跨领域泛化能力,并具有高保真度的现实机器人动力学建模。

github 收录

HIT-UAV

HIT-UAV数据集包含2898张红外热成像图像,这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景,如学校、停车场、道路和游乐场,在不同的光照条件下,包括白天和夜晚。

github 收录