cmed2.json

github2024-02-29 更新2024-05-31 收录

下载链接：

https://github.com/kofancy2023/internlm2-chat-cmed

下载链接

链接失效反馈

官方服务：

资源简介：

以常用中药为数据集，用于微调大模型，支持中医聊天小助手功能。

The dataset comprises commonly used traditional Chinese medicines, intended for fine-tuning large language models to support the functionality of a traditional Chinese medicine chat assistant.

创建时间：

2024-02-28

原始信息汇总

数据集概述

数据集名称

internlm2-chat-cmed

数据集描述

基于InternLM2-chat-7作为基座模型，以常用中药为数据集，微调得到的大模型。该模型旨在作为中医聊天小助手，提供与中医相关的信息和对话服务。

数据集格式

数据集以JSON格式存储，包含多个对话实例，每个实例包含用户输入和模型输出。

数据集内容示例

json [ { "conversation": [ { "input": "请介绍一下你自己", "output": "我是XXX的小助手，内在是上海AI实验室书生·浦语的7B大模型哦" } ] }, { "conversation": [ { "input": "请做一下自我介绍", "output": "我是XXX的小助手，内在是上海AI实验室书生·浦语的7B大模型哦" } ] } ]

数据集准备

数据集从Excel格式转换为JSON格式，使用Python处理数据以生成训练所需的数据集。
数据集文件名为cmed2.json，存放于/root/cmed2/data目录下。

数据集使用

数据集用于微调大语言模型，通过配置文件指定数据集路径进行训练。
训练配置中，数据集路径设置为/root/cmed2/data/cmed2.json。

数据集评估

在模型训练配置中，定义了评估输入，用于评估模型输出内容的准确性，评估输入包括中医相关的问题，如“桂枝的用法”、“甘草有什么功效”等。

数据集应用

微调后的模型通过网页Demo进行试用，用户可以通过网页界面与模型进行交互，体验模型的聊天功能。
模型试用包括使用微调后的模型和基座模型进行对比，以展示微调效果。

数据集发布

微调后的模型可以发布到OpenXlab平台，通过编写模型元文件和使用openxlab库进行上传。
模型发布后，用户可以在OpenXlab平台上访问和使用该模型。

搜集汇总

数据集介绍

构建方式

cmed2.json数据集的构建基于InternLM2-chat-7b模型，通过微调技术实现。首先，数据集以常用中药为主题，收集相关对话数据并转换为json格式。随后，利用XTuner框架进行模型微调，配置文件中详细定义了预训练模型路径、数据路径及训练参数。微调过程中，采用QLoRA技术优化模型性能，确保在有限计算资源下实现高效训练。最终，微调后的模型参数与基座模型合并，形成完整的cmed2.json数据集。

特点

cmed2.json数据集以中药知识为核心，涵盖了丰富的对话场景，能够有效支持中医领域的智能问答系统。数据集的特点在于其高度专业化的内容，确保了模型在中医药领域的精准回答能力。此外，数据集经过精心设计，对话结构清晰，输入输出对应关系明确，便于模型理解和学习。通过微调技术，数据集进一步提升了模型的对话生成能力，使其在中医药领域的应用中表现出色。

使用方法

使用cmed2.json数据集时，首先需配置相应的开发环境，包括创建虚拟环境、安装依赖库及下载代码。随后，准备训练数据并加载预训练模型，通过XTuner框架进行微调训练。训练完成后，将模型参数转换为Hugging Face格式，并与基座模型合并。最后，通过启动网页Demo或使用OpenXlab平台进行模型部署，用户可实时体验中医聊天助手的功能。数据集的使用方法详细且易于操作，确保了开发者能够快速上手并应用于实际场景。

背景与挑战

背景概述

cmed2.json数据集是基于InternLM2-chat-7b模型微调的中医聊天助手数据集，旨在通过大语言模型技术提升中医药领域的智能对话能力。该数据集由上海AI实验室的书生·浦语团队主导开发，结合了中医药领域的专业知识与先进的自然语言处理技术。其核心研究问题在于如何通过微调大模型，使其能够准确理解并回答中医药相关的问题，从而推动中医药知识的普及与应用。该数据集的创建标志着中医药领域与人工智能技术的深度融合，为中医药的现代化发展提供了新的技术路径。

当前挑战

cmed2.json数据集在构建与应用过程中面临多重挑战。首先，中医药领域的知识体系复杂且专业性强，如何确保模型能够准确理解并生成符合中医药理论的内容是一大难题。其次，数据集的构建需要大量的中医药专业知识，数据收集与标注的过程耗时且成本高昂。此外，微调大模型的过程中，如何平衡模型的泛化能力与领域特异性也是一个关键挑战。最后，模型的部署与应用需要解决计算资源与效率的问题，尤其是在实际应用中如何保证模型的实时性与稳定性。这些挑战共同构成了cmed2.json数据集在中医药智能化应用中的主要障碍。

常用场景

经典使用场景

cmed2.json数据集在中医药领域的经典使用场景主要体现在其作为微调大语言模型的训练数据。通过该数据集，模型能够学习并理解中医药相关的知识，进而生成与中医药相关的对话内容。这种应用场景不仅提升了模型在中医药领域的专业性，还为中医药知识的普及和传播提供了技术支持。

解决学术问题

cmed2.json数据集解决了中医药领域知识在大语言模型中的嵌入问题。通过微调，模型能够准确理解和生成中医药相关的对话内容，填补了传统大语言模型在中医药专业知识上的空白。这一数据集的应用，推动了中医药知识在人工智能领域的传播与研究，具有重要的学术意义。

衍生相关工作

基于cmed2.json数据集，衍生出了多个与中医药相关的经典工作。例如，开发了专门用于中医药知识问答的聊天机器人，以及用于中医药文献自动摘要的模型。这些工作不仅拓展了数据集的应用范围，还推动了中医药与人工智能技术的深度融合，产生了深远的影响。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集