垂直领域的数据集及评测基准|垂直领域数据集|评测基准数据集

github2023-12-26 更新2024-05-31 收录

垂直领域

评测基准

下载链接：

https://github.com/luban-agi/Awesome-Domain-LLM

下载链接

链接失效反馈

资源简介：

收集和梳理垂直领域的开源模型、数据集及评测基准。

Collection and organization of open-source models, datasets, and evaluation benchmarks in vertical domains.

创建时间：

2023-09-05

原始信息汇总

数据集概述

本项目旨在收集和梳理垂直领域的开源模型、数据集及评测基准。以下是数据集相关信息：

📚 数据集

医疗领域：
- ChiMed-GPT：基于Ziya-v2的中文医疗大模型。
- AlpaCare：医学大模型，基于LLaMA微调。
- Taiyi (太一)：中英双语生物医学大模型。
- MentalLLaMA：心理大模型，用于社交媒体上可解释的心理健康分析。
- WiNGPT2：基于GPT的医疗垂直领域大模型。
- ChatPsychiatrist：心理大模型，基于LLaMA-7B微调。
- Zhongjing-LLaMA (仲景)：包含预训练、有监督微调和RLHF完整训练流程的中文医学大模型。
- DoctorGLM：基于ChatGLM-6B的中文问诊模型。
- BenTsao (本草)：经过中文医学指令微调的大语言模型集。
- Med-ChatGLM：经过中文医学指令微调的ChatGLM-6B模型。
- BianQue (扁鹊)：生活空间健康大模型。
- HuatuoGPT (华佗)：医疗大模型，包括HuatuoGPT-7B和HuatuoGPT-13B。
- QiZhenGPT：利用启真医学知识库构建的中文医学指令数据集。
- ChatMed：中文医疗大模型ChatMed-Consult。
- ShenNong-TCM-LLM (神农)：中文中医药大模型。
- XrayGLM：中文多模态医学数据集及模型。
- MedicalGPT：医疗大模型，实现了增量预训练、有监督微调、RLHF和DPO。
- Sunsimiao (孙思邈)：中文医疗大模型。
- CareGPT：医疗大模型，集合了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型。
- DISC-MedLLM：针对医疗健康对话式场景而设计的医疗领域大模型与数据集。
- PMC-LLaMA：医疗大模型，包括预训练版本的MedLLaMA_13B和指令微调版本的PMC_LLaMA_13B。
- ChatDoctor：医疗大模型，在LLaMA的基础上训练得到。
- MING (明医)：医疗大模型，基于bloomz-7b指令微调得到MING-7B。
- IvyGPT：医疗大模型，在高质量的医学问答数据上进行了监督微调，并使用人类反馈的强化学习进行了训练。
- PULSE：中文医疗大模型，使用约4,000,000个中文医学领域和通用领域的指令微调数据进行微调。
- HuangDI (皇帝)：中医大模型，首先在Ziya-LLaMA-13B-V1基座模型的基础上加入中医教材、中医各类网站数据等语料库。
- ZhongJing (仲景)：中医大模型，旨在阐明中医博大精深之知识。
- TCMLLM：中医临床辅助诊疗大模型，目前针对中医临床智能诊疗问题中的处方推荐任务，发布了中医处方推荐大模型TCMLLM-PR。
- MeChat：中文心理健康支持对话大模型与数据集。
- SoulChat (灵心)：心理健康大模型，以ChatGLM-6B作为初始化模型，经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调得到。
- MindChat (漫谈)：心理大模型，采用了经过人工清洗的约20万条的高质量多轮心理对话数据进行训练。
- QiaoBan (巧板)：儿童情感对话大模型，基于开源通用大模型，使用通用域人机对话、单轮指令数据以及儿童情感陪伴对话数据进行指令微调。
法律领域：
- DISC-LawLLM：旨在为用户提供专业、智能、全面的法律服务的法律领域大模型。
- LawGPT_zh (獬豸)：中文法律通用模型，由ChatGLM-6B LoRA 16-bit指令微调得到。
- LaWGPT：系列模型在通用中文基座模型（如Chinese-LLaMA、ChatGLM等）的基础上扩充法律领域专有词表、大规模中文法律语料预训练。
- LexiLaw：经过微调的中文法律大模型，基于ChatGLM-6B架构。
- Lawyer LLaMA：法律领域的指令微调数据和基于LLaMA训练的中文法律大模型。
- HanFei (韩非)：全参数训练的法律大模型，参数量7b。
- ChatLaw：一系列法律大模型，包括基于姜子牙-13B、Anima-33B训练而来的ChatLaw-13B和ChatLaw-33B。
- Lychee (律知)：中文司法领域大模型Law-GLM-10B。
- wisdomInterrogatory (智海-录问)：法律大模型，基于Baichuan-7B进行了法律领域数据的二次预训练与指令微调。
- JurisLMs：基于中文法学语料训练了一系列语言模型。
- 夫子•明察：司法大模型，以 ChatGLM 为大模型底座，基于海量中文无监督司法语料与有监督司法微调数据训练。
金融领域：
- Tongyi-Finance-14B：针对金融行业推出的大语言模型。
- DISC-FinLLM：金融领域的大语言模型，由面向不同金融场景的4个模组构成的多专家智慧金融系统。
- InvestLM：基于LLaMA-65B微调得到的英文金融大模型。
- FinGLM：致力于构建一个开放的、公益的、持久的金融大模型项目。
- WeaverBird (织工鸟)：金融领域对话大模型，可接入本地知识库以及网络搜索引擎。
- BBT-FinCUGE-Applications：中文金融领域语料库BBT-FinCorpus，知识增强型大模型BBT-FinT5及评测基准CFLEB。
- Cornucopia (聚宝盆)：基于公开和爬取的中文金融领域问答数据构建指令数据集。
- XuanYuan (轩辕)：国内首个开源的千亿级中文对话大模型，同时也是首个针对中文金融领域优化的千亿级开源对话大模型。
- PIXIU (貔貅)：金融领域指令微调数据集FIT，大模型FinMA及评测基准FLARE。
- FinGPT：多个金融大模型，包括ChatGLM2-6B+LoRA和LLaMA2-7B+LoRA等。
- FLANG：金融大模型FLANG和评测基准FLUE。
教育领域：
- 桃李 (Taoli)：适用于国际中文教育领域的大模型，基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等。
- EduChat：教育领域的大模型，基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等。

以上数据集和模型涵盖了医疗、法律、金融和教育等多个垂直领域，旨在推动大模型在各行各业的应用。

AI搜集汇总

数据集介绍

构建方式

该数据集的构建基于垂直领域的开源模型、数据集及评测基准的收集与梳理。通过整合来自不同领域的从业人员在通用大语言模型（如LLaMA、ChatGLM等）基础上进行持续预训练或指令微调的成果，涵盖了医疗、法律、金融、教育等多个垂直领域。数据集的构建过程注重开源性和多样性，鼓励社区贡献未收录的开源模型、数据集及评测基准，以推动大模型在各行业的应用与发展。

特点

该数据集的特点在于其广泛的领域覆盖和高质量的开源资源。它不仅包含了多个垂直领域的模型和数据集，还提供了相应的评测基准，确保了模型在不同领域中的性能评估。数据集中的模型经过持续预训练和指令微调，能够更好地适应特定领域的任务需求。此外，数据集的更新频率较高，确保了内容的时效性和前沿性，为研究人员和开发者提供了丰富的资源支持。

使用方法

该数据集的使用方法主要包括模型训练、性能评估和应用开发。研究人员可以通过下载数据集中的开源模型和数据集，进行进一步的微调和训练，以适应特定的垂直领域任务。评测基准则可用于评估模型在不同领域中的表现，帮助优化模型性能。开发者可以利用这些资源构建垂直领域的应用，如智能医疗诊断、法律咨询、金融分析等。数据集的开源性也为社区贡献提供了便利，用户可以通过提交新的模型、数据集或评测基准来丰富数据集内容。

背景与挑战

背景概述

随着以ChatGPT为代表的大语言模型的兴起，垂直领域的大模型应用逐渐成为研究热点。Awesome Domain LLM项目由luban-agi团队于2023年发起，旨在收集和梳理垂直领域的开源模型、数据集及评测基准。该项目涵盖了医疗、法律、金融、教育等多个领域，汇集了如ChiMed-GPT、DISC-LawLLM、Tongyi-Finance-14B等众多领域大模型。这些模型通过在通用模型基础上进行持续预训练或指令微调，显著提升了在特定领域的表现。该项目的推出为垂直领域的大模型研究提供了丰富的资源，推动了AI技术在各行业的深度应用。

当前挑战

垂直领域大模型的构建面临多重挑战。首先，领域数据的稀缺性和专业性使得数据收集与标注成本高昂，且需要领域专家的深度参与。其次，领域知识的复杂性和动态性要求模型具备强大的知识理解和更新能力，以确保输出的准确性和时效性。此外，领域模型的评测基准尚不完善，如何设计科学合理的评测体系以全面评估模型性能仍是一个亟待解决的问题。在构建过程中，如何平衡模型的通用性与领域特异性，以及如何有效利用有限的领域数据进行高效微调，也是研究者们需要克服的技术难题。

常用场景

经典使用场景

垂直领域的数据集及评测基准在自然语言处理领域中被广泛应用于特定领域的模型训练与评估。例如，医疗领域的ChiMed-GPT模型通过该数据集进行预训练和微调，显著提升了其在中文医疗问答中的表现。法律领域的DISC-LawLLM模型则利用该数据集进行法律文本的理解与生成，为法律从业者提供了智能化的法律咨询服务。金融领域的Tongyi-Finance-14B模型通过该数据集强化了金融知识的问答与推理能力，广泛应用于金融文本分析与决策支持。

衍生相关工作

该数据集衍生了许多经典的研究工作与应用模型。例如，ChiMed-GPT模型通过该数据集在中文医疗问答领域取得了显著成果，DISC-LawLLM模型则通过该数据集在法律文本生成与推理方面展现了强大的能力。此外，Tongyi-Finance-14B模型通过该数据集在金融领域的知识问答与逻辑推理中表现出色。这些模型不仅在学术研究中取得了重要突破，还在实际应用中推动了医疗、法律、金融等领域的智能化发展。

数据集最近研究

最新研究方向

随着大语言模型（LLM）在通用领域的广泛应用，垂直领域的模型定制化研究逐渐成为前沿热点。近年来，医疗、法律、金融等领域的垂直大模型研究取得了显著进展。例如，医疗领域的ChiMed-GPT和AlpaCare模型通过持续预训练和指令微调，显著提升了模型在医学问答和诊断支持中的表现。法律领域的DISC-LawLLM和LaWGPT模型则通过大规模法律语料的预训练和指令微调，增强了模型在法律咨询和案例分析中的专业性。金融领域的Tongyi-Finance-14B和DISC-FinLLM模型则专注于金融知识问答、文本分析和计算任务，展现了在复杂金融场景中的强大应用潜力。这些垂直领域大模型的研究不仅推动了行业智能化转型，也为大模型在特定领域的深度应用提供了新的研究方向。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

中国区域地面气象要素驱动数据集 v2.0（1951-2020）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 70 年（1951~2020 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中，计划于 2025 年上半年发布，从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心收录

中国逐日降水数据集（1961-2022，0.1°/0.25°/0.5°）

CHM_PRE数据集基于中国境内及周边1961至今共2839个站点的日降水观测，在传统的“降水背景场 + 降水比值场”的数据集构建思路上，尝试应用月值降水约束和地形特征校正，并依据中国范围内约4万个高密度站点2015–2019年的日降水量插值后数据进行精度评价。经评估认为，CHM_PRE可以较好的表征降水的空间变异性，其日值时间序列与高密度站点日值降水观测结果之间的相关系数中位数为0.78，均方根误差中位数为8.8 mm/d，KGE值中位数为0.69，与目前常用的降水数据集（CGDPA、CN05.1、CMA V2.0）有很好的一致性。数据集的时间范围为1961年至今，空间分辨率为0.1°、0.25°和0.5°，经纬度范围为18°N–54°N, 72°E–136°E。

国家青藏高原科学数据中心收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录