FreedomIntelligence/HuatuoGPT2-SFT-GPT4-140K

Name: FreedomIntelligence/HuatuoGPT2-SFT-GPT4-140K
Creator: FreedomIntelligence
Published: 2024-06-25 04:44:57
License: 暂无描述

Hugging Face2024-06-25 更新2024-06-25 收录

下载链接：

https://hf-mirror.com/datasets/FreedomIntelligence/HuatuoGPT2-SFT-GPT4-140K

下载链接

链接失效反馈

官方服务：

资源简介：

HuatuoGPT2-SFT-GPT4-140K数据集包含14万条由GPT-4生成的中文医疗指令，这些指令基于HuatuoGPT数据集的问题。该数据集用于HuatuoGPT2的监督微调，旨在增强模型在真实医疗场景中遵循指令的能力。数据集中的所有数据（142,248条）均已公开。

The HuatuoGPT2-SFT-GPT4-140K dataset contains 140K Chinese medical instructions generated by GPT-4, based on questions from the HuatuoGPT Dataset. This dataset is used for supervised fine-tuning of HuatuoGPT2, designed to enhance the models ability to follow instructions in real medical scenarios. All the data in this dataset (142,248 entries) has been made publicly available.

提供机构：

FreedomIntelligence

原始信息汇总

HuatuoGPT2-SFT-GPT4-140K 数据集概述

基本信息

许可证：Apache-2.0
任务类别：
- 问答
- 文本生成
语言：中文
标签：
- GPT-4
- 医学
- 生物学
数据规模：100K<n<200K

数据集结构

特征：
- id：字符串类型
- conversations：列表类型，包含以下字段：
  - from：字符串类型
  - value：字符串类型
分割：
- train

配置信息

默认配置：
- 数据文件：
  - 分割：train
  - 路径：HuatuoGPT2-GPT4-SFT-140K.json

数据集描述

该数据集包含140K条由GPT-4生成的中文医学指令，基于HuatuoGPT Dataset中的问题。
目的是增强HuatuoGPT2模型在实际医学场景中遵循指令的能力。
数据集共包含142,248条记录，已公开发布。

搜集汇总

数据集介绍

构建方式

在医学自然语言处理领域，高质量指令数据的构建对于提升模型的专业对话能力至关重要。HuatuoGPT2-SFT-GPT4-140K数据集的构建基于HuatuoGPT数据集中的医学问题，通过GPT-4模型生成相应的指令-回复对，形成监督微调数据。该过程利用先进的大语言模型模拟真实医疗场景下的对话交互，确保了数据的多样性与专业性，最终汇集了142,248条高质量的中文医学指令数据，为模型训练提供了丰富的语义素材。

特点

该数据集专注于中文医学领域，其核心特点在于全部指令均由GPT-4生成，保证了语言的自然流畅与逻辑严谨性。数据内容覆盖广泛的医疗场景，能够有效增强模型在遵循指令、理解医学语境方面的能力。数据集规模达到十万级别，提供了充足的训练样本，且以结构化对话格式组织，便于模型学习多轮交互模式，为医学大型语言模型的适应性微调奠定了坚实基础。

使用方法

该数据集主要用于医学领域大型语言模型的监督微调，以提升模型在专业场景下的指令遵循与问答性能。研究人员可直接加载数据集中的对话数据，将其转化为标准的指令微调格式，输入模型进行训练。通过利用这些高质量的医学对话对，模型能够学习到更准确的医学知识表达与临床推理模式，从而在医疗咨询、辅助诊断等实际应用中展现出更可靠的性能。

背景与挑战

背景概述

随着人工智能在医疗领域的深入应用，如何使大型语言模型具备专业的医学知识并适应实际临床场景，成为自然语言处理研究的重要方向。HuatuoGPT2-SFT-GPT4-140K数据集由FreedomIntelligence团队于2023年创建，旨在通过大规模指令微调数据提升模型在中文医疗问答中的表现。该数据集基于HuatuoGPT数据集的原始问题，利用GPT-4生成高质量指令对，涵盖医学与生物学领域，为HuatuoGPT2模型的监督微调提供支持，推动了医疗语言模型向实用化、专业化发展，对智慧医疗和辅助诊断研究具有显著影响力。

当前挑战

在医疗问答领域，模型需准确理解复杂的医学术语、处理多样化的临床描述，并生成可靠、安全的回答，这对数据的专业性和准确性提出极高要求。构建本数据集时，挑战主要集中于如何利用GPT-4生成既符合医学规范又贴近真实场景的指令，同时确保数据规模与质量的平衡，以及处理中文医疗文本特有的语言结构和知识表示问题，这些因素共同增加了数据收集与标注的难度。

常用场景

经典使用场景

在医学自然语言处理领域，HuatuoGPT2-SFT-GPT4-140K数据集为大型语言模型的指令微调提供了关键支撑。该数据集通过GPT-4生成的14.2万条中文医学指令，模拟真实医疗场景中的问答交互，使模型能够学习如何遵循复杂医学指令，从而提升在诊断建议、病理解释等任务中的准确性和可靠性。

实际应用

在实际医疗环境中，该数据集支持开发智能问诊助手、医学教育工具和临床决策辅助系统。模型基于这些指令数据微调后，能够为医护人员提供实时知识查询、病例分析支持，或为患者提供初步的医疗咨询，从而缓解医疗资源紧张，提升医疗服务效率与可及性。

衍生相关工作

围绕该数据集，衍生出了HuatuoGPT系列模型的持续优化研究，包括多阶段训练策略探索、医学领域安全对齐技术等。相关工作进一步扩展至跨模态医学对话、个性化医疗推荐等方向，为后续如MedAlpaca、DoctorGLM等医疗大模型的发展提供了重要的数据与方法借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集