Chinese-Medical-Instruct-1M

Hugging Face2025-05-02 更新2025-05-03 收录

下载链接：

https://huggingface.co/datasets/Mxode/Chinese-Medical-Instruct-1M

下载链接

链接失效反馈

官方服务：

资源简介：

中文医疗指令微调数据集，从原shibing624/medical数据集中选取finetune部分，经过清洗后包含约1M条数据。该数据集通过模型对原数据集中的参考回复进行梳理、组织、合成，生成新的回复，而指令部分保持不变。

This is a Chinese medical instruction fine-tuning dataset, which selects the fine-tuning subset from the original shibing624/medical dataset. After data cleaning, it contains approximately 1 million data entries. New responses are generated by refining, organizing and synthesizing the reference responses in the original dataset using models, while the instruction parts remain unchanged.

创建时间：

2025-04-20

原始信息汇总

中文医疗指令微调数据集概述

基本信息

许可证: CC BY-SA 4.0
任务类别: 文本生成
语言: 中文 (zh)
数据集名称: chinese-medical-instruct
规模: 100K < n < 1M

数据集来源

原始数据集: shibing624/medical
选取部分: finetune 数据集
处理方式: 经过清洗后剩余1M条数据

数据处理

保留原始数据集的指令部分
重新梳理、组织、合成参考回复
使用模型生成新的回复

相关资源

Github Repo

搜集汇总

数据集介绍

构建方式

在医疗自然语言处理领域，高质量指令数据对模型微调至关重要。Chinese-Medical-Instruct-1M数据集基于shibing624/medical原始数据集进行深度重构，通过系统性筛选保留约100万条finetune数据样本。其创新之处在于采用模型驱动的内容重组策略，在保持原始指令不变的前提下，运用先进语言模型对参考回复进行语义梳理和结构化重组，显著提升了回复内容的专业性和逻辑连贯性。

特点

该数据集作为中文医疗垂直领域的专业语料库，具有鲜明的领域特异性。其核心价值体现在经过双重优化的内容体系：既保留原始医疗指令的真实场景特征，又通过模型生成的回复文本实现知识结构化表达。数据规模控制在100K到1M之间的黄金区间，既能满足深度学习模型的训练需求，又确保了数据质量的精细把控。语言纯中文的设定使其成为中文医疗NLP研究的理想基准数据集。

使用方法

研究人员可将该数据集直接应用于医疗领域的指令微调任务，特别适合作为生成式医疗问答系统的训练基础。使用时应充分理解其数据重构逻辑，建议采用两阶段应用策略：先利用原始指令部分进行意图识别训练，再结合优化后的回复文本开展生成模型微调。数据集采用CC-BY-SA-4.0许可协议，允许在注明来源的前提下进行修改和再发布，为学术研究和商业应用提供了灵活的使用空间。

背景与挑战

背景概述

随着人工智能技术在医疗领域的深入应用，中文医疗指令微调数据集Chinese-Medical-Instruct-1M应运而生。该数据集由研究团队基于shibing624/medical原始数据集精心构建，专注于中文医疗文本生成任务。数据集创建过程中，研究人员保留了原始指令部分，同时利用先进的语言模型对参考回复进行了重新梳理和组织，最终形成了规模达百万级别的优质数据。这一数据集的推出，为中文医疗领域的自然语言处理研究提供了重要资源，特别是在医疗问答、诊断辅助等应用场景中展现出独特价值。

当前挑战

构建Chinese-Medical-Instruct-1M数据集面临多重挑战。在领域问题层面，医疗文本具有高度专业性，要求数据既能准确反映医学知识，又能适应不同用户的查询需求。数据处理过程中，如何平衡专业术语的准确性与语言表达的通俗性成为关键难题。在构建技术层面，原始数据的清洗与重构需要克服噪声干扰，确保合成回复的连贯性和医学准确性。同时，大规模数据集的标注质量控制和知识更新维护也对研究团队提出了持续性的挑战。

常用场景

经典使用场景

在医疗自然语言处理领域，Chinese-Medical-Instruct-1M数据集为研究者提供了丰富的指令微调资源。该数据集通过精心整理的百万级中文医疗对话，成为训练医疗问答系统的黄金标准，特别适用于生成式模型在理解复杂医学术语和患者咨询方面的性能优化。其结构化指令与重新合成的专业回复，为模型学习医疗知识图谱和对话逻辑建立了可靠范本。

实际应用

实际部署中，基于该数据集训练的模型已应用于智能分诊系统、电子病历自动生成等场景。医院候诊区的虚拟助手通过吸收数据集中的专业对话模式，能够准确理解患者主诉并提供合规的初步建议。医药企业则利用其构建知识检索系统，快速提取药品说明书中关键信息，提升客服效率。

衍生相关工作

该数据集催生了MedDialog-Transformer等经典医疗对话系统架构，其清洗流程被后续研究如CMB-QA基准测试所借鉴。基于该数据训练的模型在中文医疗文本处理竞赛MedQA中表现优异，相关技术已延伸至中医知识图谱构建、跨模态医疗报告生成等创新方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集