FreedomIntelligence/HuatuoGPT2-SFT-GPT4-140K
收藏Hugging Face2024-06-25 更新2024-06-25 收录
下载链接:
https://hf-mirror.com/datasets/FreedomIntelligence/HuatuoGPT2-SFT-GPT4-140K
下载链接
链接失效反馈官方服务:
资源简介:
HuatuoGPT2-SFT-GPT4-140K数据集包含14万条由GPT-4生成的中文医疗指令,这些指令基于HuatuoGPT数据集的问题。该数据集用于HuatuoGPT2的监督微调,旨在增强模型在真实医疗场景中遵循指令的能力。数据集中的所有数据(142,248条)均已公开。
The HuatuoGPT2-SFT-GPT4-140K dataset contains 140K Chinese medical instructions generated by GPT-4, based on questions from the HuatuoGPT Dataset. This dataset is used for supervised fine-tuning of HuatuoGPT2, designed to enhance the models ability to follow instructions in real medical scenarios. All the data in this dataset (142,248 entries) has been made publicly available.
提供机构:
FreedomIntelligence
原始信息汇总
HuatuoGPT2-SFT-GPT4-140K 数据集概述
基本信息
- 许可证:Apache-2.0
- 任务类别:
- 问答
- 文本生成
- 语言:中文
- 标签:
- GPT-4
- 医学
- 生物学
- 数据规模:100K<n<200K
数据集结构
- 特征:
id:字符串类型conversations:列表类型,包含以下字段:from:字符串类型value:字符串类型
- 分割:
train
配置信息
- 默认配置:
- 数据文件:
- 分割:
train - 路径:
HuatuoGPT2-GPT4-SFT-140K.json
- 分割:
- 数据文件:
数据集描述
- 该数据集包含140K条由GPT-4生成的中文医学指令,基于HuatuoGPT Dataset中的问题。
- 目的是增强HuatuoGPT2模型在实际医学场景中遵循指令的能力。
- 数据集共包含142,248条记录,已公开发布。
搜集汇总
数据集介绍

构建方式
在医学自然语言处理领域,高质量指令数据的构建对于提升模型的专业对话能力至关重要。HuatuoGPT2-SFT-GPT4-140K数据集的构建基于HuatuoGPT数据集中的医学问题,通过GPT-4模型生成相应的指令-回复对,形成监督微调数据。该过程利用先进的大语言模型模拟真实医疗场景下的对话交互,确保了数据的多样性与专业性,最终汇集了142,248条高质量的中文医学指令数据,为模型训练提供了丰富的语义素材。
特点
该数据集专注于中文医学领域,其核心特点在于全部指令均由GPT-4生成,保证了语言的自然流畅与逻辑严谨性。数据内容覆盖广泛的医疗场景,能够有效增强模型在遵循指令、理解医学语境方面的能力。数据集规模达到十万级别,提供了充足的训练样本,且以结构化对话格式组织,便于模型学习多轮交互模式,为医学大型语言模型的适应性微调奠定了坚实基础。
使用方法
该数据集主要用于医学领域大型语言模型的监督微调,以提升模型在专业场景下的指令遵循与问答性能。研究人员可直接加载数据集中的对话数据,将其转化为标准的指令微调格式,输入模型进行训练。通过利用这些高质量的医学对话对,模型能够学习到更准确的医学知识表达与临床推理模式,从而在医疗咨询、辅助诊断等实际应用中展现出更可靠的性能。
背景与挑战
背景概述
随着人工智能在医疗领域的深入应用,如何使大型语言模型具备专业的医学知识并适应实际临床场景,成为自然语言处理研究的重要方向。HuatuoGPT2-SFT-GPT4-140K数据集由FreedomIntelligence团队于2023年创建,旨在通过大规模指令微调数据提升模型在中文医疗问答中的表现。该数据集基于HuatuoGPT数据集的原始问题,利用GPT-4生成高质量指令对,涵盖医学与生物学领域,为HuatuoGPT2模型的监督微调提供支持,推动了医疗语言模型向实用化、专业化发展,对智慧医疗和辅助诊断研究具有显著影响力。
当前挑战
在医疗问答领域,模型需准确理解复杂的医学术语、处理多样化的临床描述,并生成可靠、安全的回答,这对数据的专业性和准确性提出极高要求。构建本数据集时,挑战主要集中于如何利用GPT-4生成既符合医学规范又贴近真实场景的指令,同时确保数据规模与质量的平衡,以及处理中文医疗文本特有的语言结构和知识表示问题,这些因素共同增加了数据收集与标注的难度。
常用场景
经典使用场景
在医学自然语言处理领域,HuatuoGPT2-SFT-GPT4-140K数据集为大型语言模型的指令微调提供了关键支撑。该数据集通过GPT-4生成的14.2万条中文医学指令,模拟真实医疗场景中的问答交互,使模型能够学习如何遵循复杂医学指令,从而提升在诊断建议、病理解释等任务中的准确性和可靠性。
实际应用
在实际医疗环境中,该数据集支持开发智能问诊助手、医学教育工具和临床决策辅助系统。模型基于这些指令数据微调后,能够为医护人员提供实时知识查询、病例分析支持,或为患者提供初步的医疗咨询,从而缓解医疗资源紧张,提升医疗服务效率与可及性。
衍生相关工作
围绕该数据集,衍生出了HuatuoGPT系列模型的持续优化研究,包括多阶段训练策略探索、医学领域安全对齐技术等。相关工作进一步扩展至跨模态医学对话、个性化医疗推荐等方向,为后续如MedAlpaca、DoctorGLM等医疗大模型的发展提供了重要的数据与方法借鉴。
以上内容由遇见数据集搜集并总结生成



