medical-o1-reasoning-SFT|医疗诊断数据集|推理分析数据集
收藏DeepSeek-R1 医疗诊断大模型微调指南
项目亮点
- 闪电训练:基于Unsloth框架,提速2倍显存节省80%。
- 医学思维链:引入CoT推理让诊断过程透明化。
- 专业领域适配:专治模型医学知识贫血症。
- 训练可视化:wandb实时监控训练过程,效果看得见。
- 精准微调:LoRA技术实现外科手术式参数调整。
快速开始
环境配置
bash sudo apt install python3-venv python3 -m venv unsloth source unsloth/bin/activate pip install unsloth wandb python-dotenv
启动微调
bash python r1-finetuning-unsloth.py
训练过程可视化
python wandb.init(project=Fine-tune-DeepSeek-R1)
效果对比
微调前
text "建议多喝水,注意休息..."
微调后
text "根据病毒性感冒的典型病程:
- 退烧药仅对症处理...
- 推荐使用奥司他韦...
- 需密切观察..."
数据集
python load_dataset("FreedomIntelligence/medical-o1-reasoning-SFT")
- 500+ 中文医疗场景问答
- 包含详细思维链标注
- 覆盖常见疾病诊断路径
技术配置
组件 | 配置 | 说明 |
---|---|---|
模型 | DeepSeek-R1-Distill-Qwen-1.5B | 医学知识蒸馏版 |
LoRA | r=16, alpha=16 | 精准参数调整 |
量化 | 4bit 加载 | 显存优化黑科技 |
训练 | BF16混合精度 | 速度精度双保障 |
模型保存
python model.save_pretrained_merged("My_Medical_GPT", save_method="merged_16bit")
模型部署
python model.push_to_hub_merged("YourName/Medical-R1")
注意事项
- 使用前记得替换代码中的
hf_token
和wb_token
- 建议先在500条数据上试跑,再扩展数据集
- 医疗内容仅供参考,实际应用需专业审核

LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
广东省标准地图
该数据类主要为广东省标准地图信息。标准地图依据中国和世界各国国界线画法标准编制而成。该数据包括广东省全图、区域地图、地级市地图、县(市、区)地图、专题地图、红色印迹地图等分类。
开放广东 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
ZINC
ZINC 是用于虚拟筛选的商用化合物的免费数据库。 ZINC 包含超过 2.3 亿种可购买的即用型 3D 格式化合物。 ZINC 还包含超过 7.5 亿种可购买的化合物,可用于搜索类似物。
OpenDataLab 收录