HanFei数据集|法律大模型数据集|自然语言处理数据集
收藏HanFei数据集概述
数据集简介
- 名称:HanFei-1.0(韩非)
- 类型:法律领域大模型
- 参数量:7b
- 功能:法律问答、多轮对话、撰写文章、检索(开发中)
数据组成
预训练数据
- 内容:案例、法规、起诉状、法律新闻等
- 数据量:约60G,每条2048个token
- 处理脚本:
src/data_processing/gen_pretrain_data.py
微调数据(hanfei 1.0)
数据类型 | 文件名称 | 数据量 |
---|---|---|
中文通用指令 | zh_general_instruction.json | 5.3万 |
中文法律指令 | zh_law_instruction.json | 4.1万 |
中文通用对话 | zh_general_conversation.json | 5.5万 |
中文法律对话 | zh_law_conversation.json | 5.6万 |
中文法律问答数据 | zh_law_qa.json | 5万 |
评估数据
- 内容:包含劳动、婚姻等9个板块的法律问题
- 数据量:150条
- 路径:
data/evaluation_dataset
数据下载
- 百度网盘:https://pan.baidu.com/s/1PkRXUo9sNRQmoXHcW7Aeeg?pwd=d6t5
- 提取码:d6t5
评估指标
- 方法:专业律师人工评分(0-10分)
- 对比模型:Hanfei、BLOOMz、ChatGPT
- 评估量:150个问题
训练与部署
训练要求
- 硬件:8张A100/A800
- 脚本:
- 预训练:
scripts/pre_training/run_train.sh
- 指令微调:
scripts/instruction_tuning/run_train.sh
- 预训练:
部署要求
- 硬件:1张A100/A800(40G显存)或2张TITAN RTX
- 方式:
- Gradio界面:
src/web/hanfei_app.py
- RESTful API:
src/serve/hanfei_serve.py
- Gradio界面:
项目团队
- 机构:中科院深圳先进院得理法律人工智能联合实验室、深圳市大数据研究院、港中文深圳
- 指导教师:王本友(助理教授)、杨敏(副研究员)
免责声明
- 用途限制:仅供学术研究,严禁商用
- 准确性声明:不保证模型输出准确性,不承担法律责任
引用格式
bibtex @misc{HanFei, author={Wanwei He et al.}, title={HanFei-1.0}, year={2023}, publisher={GitHub}, howpublished={url{https://github.com/siat-nlp/HanFei}}, }

Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录
DAT
DAT是一个统一的跨场景跨领域基准,用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景,以评估算法的跨场景和跨领域泛化能力,并具有高保真度的现实机器人动力学建模。
github 收录
HIT-UAV
HIT-UAV数据集包含2898张红外热成像图像,这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景,如学校、停车场、道路和游乐场,在不同的光照条件下,包括白天和夜晚。
github 收录