chinese_medical_dialogue_data, huatuo_llama_med_chinese_data, medicalgpt_data, doctorchat_data, opengpt_data

github2023-05-22 更新2024-05-31 收录

下载链接：

https://github.com/donote/llm-medical-data

下载链接

链接失效反馈

官方服务：

资源简介：

用于大模型微调训练的医疗数据集，包括中文医疗对话数据、华佗llama医疗中文数据、medicalgpt数据、doctorchat数据和opengpt数据。

A medical dataset for fine-tuning large models, including Chinese medical dialogue data, Huatuo Llama medical Chinese data, MedicalGPT data, DoctorChat data, and OpenGPT data.

创建时间：

2023-05-19

原始信息汇总

数据集概述

1. chinese_medical_dialogue_data

项目地址: https://github.com/Toyhom/Chinese-medical-dialogue-data
文件名及样本量:
- IM_内科.csv: 307,596
- andriatria_男科.csv: 113,877
- obgyn_妇产科.csv: 229,706
- oncology_肿瘤科.csv: 96,627
- pediatric_儿科.csv: 117,099
- surgical_外科.csv: 149,576
数据格式: utf8编码，csv格式

2. huatuo_llama_med_chinese_data

项目地址: https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese
文件名及样本量:
- liver_cancer.json: 1,000
- llama_data.json: 8,568
数据格式: utf8编码，json格式，符合standford-alpaca指令微调样本格式

3. medicalgpt_data

项目地址: https://github.com/MediaBrain-SJTU/MedicalGPT-zh
数据描述: 未提供微调数据，但给出了微调数据生成脚本和种子数据文件，需添加openai api key后自行生成微调样本数据。

4. doctorchat_data

项目地址: https://github.com/Kent0n-Li/ChatDoctor
文件名及样本量:
- GenMedGPT-5k.json: 2,354
- iCliniq.json: 7,342
- HealthCareMagic-100k.json: 24,665
数据格式: 符合standford-alpaca样本格式json描述

5. opengpt_data

项目地址: https://github.com/CogStack/opengpt
文件名及样本量:
- prepared_generated_data_for_nhs_uk_qa.csv: QA, 24,665
- prepared_generated_data_for_nhs_uk_conversations.csv: 对话, 2,354
- prepared_generated_data_for_medical_tasks.csv: 任务, 4,688
数据格式: csv格式，text字段中包含standford-alpaca样本格式的input和output

数据格式转换

转换脚本: 使用scripts中的脚本转换为standford-alpaca微调格式的json描述样本，包括csv到json的转换。

数据翻译

翻译工具: 使用scripts中的en2zh_trans_google.py脚本调用google在线翻译，将英文语料翻译成中文。

搜集汇总

数据集介绍

构建方式

该数据集的构建主要依赖于医学领域的真实对话和生成数据。chinese_medical_dialogue_data通过收集不同科室的医患对话，生成了大量结构化数据；huatuo_llama_med_chinese_data则基于特定疾病（如肝癌）的问答对，生成了符合指令微调格式的样本；doctorchat_data结合了ChatGPT生成的对话和在线站点的真实对话，确保了数据的多样性和真实性；opengpt_data则利用ChatGPT对NHS站点数据进行生成，进一步丰富了数据来源。

特点

该数据集的特点在于其多样性和专业性。涵盖了内科、男科、妇产科、肿瘤科、儿科和外科等多个医学领域的对话数据，且数据格式统一，便于模型微调。huatuo_llama_med_chinese_data和doctorchat_data的数据格式符合standford-alpaca指令微调样本格式，便于直接用于大模型训练。此外，opengpt_data通过生成任务和问答数据，进一步扩展了数据的使用场景。

使用方法

该数据集的使用方法灵活多样。用户可以通过提供的脚本将CSV格式的数据转换为standford-alpaca微调格式的JSON文件，便于直接用于模型训练。对于英文语料，用户还可以使用提供的翻译脚本将其转换为中文，以适应中文模型的训练需求。此外，medicalgpt_data提供了数据生成脚本，用户可以通过添加OpenAI API密钥，自行生成微调样本数据，进一步扩展数据集的应用范围。

背景与挑战

背景概述

随着人工智能技术在医疗领域的深入应用，医学对话数据集成为了训练和优化医疗大模型的关键资源。chinese_medical_dialogue_data、huatuo_llama_med_chinese_data、medicalgpt_data、doctorchat_data和opengpt_data等数据集应运而生，旨在为中文医疗对话系统提供丰富的训练语料。这些数据集由多个研究团队和机构共同开发，涵盖了内科、外科、肿瘤科、儿科等多个医学专科的对话数据。其创建时间主要集中在2020年至2023年之间，反映了近年来医疗人工智能研究的快速发展。这些数据集不仅为医疗大模型的微调提供了基础数据支持，还推动了医疗对话系统在诊断辅助、患者咨询等场景中的应用。

当前挑战

尽管这些数据集为医疗大模型的训练提供了重要支持，但其构建和应用仍面临诸多挑战。首先，医学领域的专业性和复杂性要求数据集必须具有高度的准确性和权威性，然而现有数据集中仍存在部分样本质量参差不齐的问题，可能影响模型的训练效果。其次，医学数据的隐私性和敏感性使得数据收集和标注过程面临严格的伦理和法律限制，如何在保护患者隐私的前提下获取高质量数据成为一大难题。此外，不同数据集之间的格式和标准不统一，增加了数据整合和模型迁移的难度。最后，医学知识的快速更新要求数据集能够及时反映最新的临床实践和研究成果，这对数据集的持续更新和维护提出了更高的要求。

常用场景

经典使用场景

在医学领域，chinese_medical_dialogue_data等数据集被广泛用于训练和微调大型语言模型，以提升其在医疗对话中的表现。这些数据集包含了丰富的医患对话样本，涵盖了内科、外科、妇产科等多个科室，为模型提供了多样化的训练素材。通过使用这些数据集，研究人员能够构建出更加智能和专业的医疗对话系统，帮助医生和患者进行更有效的沟通。

衍生相关工作

基于这些数据集，许多经典的研究工作得以展开。例如，Huatuo-Llama-Med-Chinese项目利用这些数据训练了专门针对中文医疗对话的模型，显著提升了模型在中文语境下的表现。此外，MedicalGPT等项目也利用这些数据集生成了大量的微调样本，进一步推动了医学大模型的研究和应用。这些工作不仅丰富了医学自然语言处理领域的研究成果，还为未来的智能医疗系统提供了宝贵的经验。

数据集最近研究