xz97/MedInstruct
收藏数据集卡片 for MedInstruct
数据集描述
数据集概述
MedInstruct 包含以下内容:
- MedInstruct-52k: 一个包含52,000条医疗指令和响应的数据集。指令由OpenAI的GPT-4引擎生成,响应由GPT-3.5-turbo引擎生成。
- MedInstruct-test: 一组217个临床自由形式指令评估测试。
- med_seed: 作为提示GPT-4进行任务生成的临床医生手工制作的种子集。
MedInstruct-52k 可用于进行语言模型的指令微调,旨在增强其遵循指令的能力和医疗专业知识。另一方面,MedInstruct-test 可作为评估模型在医疗领域遵循指令能力的工具。
具体来说,MedInstruct-52k 数据集是通过以下方式获得的:
指令:
- 从一个包含167个临床任务的医疗任务种子集开始。
- 利用GPT-4引擎进行指令数据生成。
- 制作一个提示作为GPT-4的医疗指令生成指南。
- 为了降低任务生成成本并引入更大的随机性,一次生成12条指令,然后从种子集中随机选择3条种子指令。
响应:
- 使用GPT-3.5-turbo引擎合成响应,逐条处理每条指令。
以下是一个指令-响应对的示例:
json { "instruction": "Rewrite this instruction on how to use an inhaler to be more patient-friendly and less technical.", "input": "Exhale deeply, engage mouthpiece of inhaler, depress canister while simultaneously inhaling long and deep, hold the breath for ten seconds, then gently exhale", "output": "Heres a more patient-friendly version of the instruction on how to use an inhaler:
- Take a deep breath and completely breathe out.
- Put the mouthpiece of the inhaler into your mouth and seal your lips around it properly.
- Press down the canister while breathing in slowly and deeply at the same time.
- Hold your breath for ten seconds. 5. Finally, breathe out gently." }
引用
如果你认为这是一个有用的资源,请引用论文:
@misc{zhang2023alpacareinstructiontuned, title={AlpaCare:Instruction-tuned Large Language Models for Medical Application}, author={Xinlu Zhang and Chenxin Tian and Xianjun Yang and Lichang Chen and Zekun Li and Linda Ruth Petzold}, year={2023}, eprint={2310.14558}, archivePrefix={arXiv}, primaryClass={cs.CL} }



