Citrus_S3, JMED
收藏Citrus 数据集概述
简介
Citrus 是一种医学语言模型,通过模拟医学专家的认知过程,弥合临床专业知识与人工智能推理之间的差距。该模型基于大量模拟专家疾病推理数据进行训练,采用新颖的方法合成数据,准确捕捉临床医生的决策路径。
主要贡献
- 提出一种无训练推理方法,模拟医学专家的认知过程,增强大型语言模型在临床诊断和治疗中的医学能力。
- 结合数据构建方法,引入多阶段后训练方法,进一步提升模型的医学性能。
- 公开 Citrus 模型及其训练数据作为开源资源,推动 AI 驱动的医疗决策研究。
- 开发并开源基于真实世界数据的大规模可更新临床实践评估数据集,准确反映真实世界患者分布。
性能
Citrus1.0-Llama-70B 在 70B 规模模型中达到顶级性能,尤其在 MedQA、PubMedQA、MedBullets、CareQA 等基准测试中表现优异。Citrus 超越许多闭源顶级 LLM,如 Claude-sonnet 和 GPT-4o。
模型访问
| 模型名称 | 骨干模型 | 支持语言 | 链接 |
|---|---|---|---|
| Citrus1.0-Llama-70B | LLaMA-3.1-70B | 英语 | HF Link |
| Citrus1.0-Qwen-72B | Qwen2.5-72B | 英语 & 中文 | HF Link |
数据访问
| 数据名称 | 用途 | 描述 | 链接 |
|---|---|---|---|
| Citrus_S3 | 训练数据 | 包含 20k 数据点的模型训练数据部分 | Link |
| JMED | 测试数据 | 源自京东健康互联网医院的匿名医患对话,筛选保留符合标准化诊断流程的咨询。初始发布包含 1,000 条高质量临床记录,涵盖所有年龄组(0-90 岁)和多个专科。 | Link |
代码使用
安装
bash
代码下载
git clone git@github.com:jdh-algo/Citrus.git
cd Citrus
安装依赖
1、python 环境 1.1 推荐使用 Anaconda 管理虚拟环境 1.2 conda create -n [env_name] python=3.10 1.3 conda activate [env_name] 2、安装 poetry: pip install poetry
3、使用 poetry 安装依赖: poetry install
模型使用
启动模型: 可使用骨干模型代码(Qwen, Llama)或通过 vllm 部署。
提示词: 使用以下提示词使模型以医学专家方式思考。
配置
yaml
LLMs API 配置文件: src/config/config/model_api.yml
open_ai:
- url: ""
- app_key: ""
local_vllm:
- url: "127.0.0.1:8080"
运行
bash
数据预处理
cd src & python main.py --app data_preprocess --task_card config/task_card/create_origin_file.json
数据标注
cd src & python main.py --app data_preprocess --task_card config/task_card/data_label.json
SFT 数据合成 (Citrus_S3)
cd src & python main.py --app data_synthesis --task_card config/task_card/sft_data_synthesis.json
模型评估
cd src & python main.py --app evaluation --task_card config/task_card/model_evaluation.json




