CMedINS
收藏arXiv2025-01-06 更新2025-01-08 收录
下载链接:
http://arxiv.org/abs/2501.02869v1
下载链接
链接失效反馈官方服务:
资源简介:
CMedINS数据集是由中国科学院合肥物质科学研究院智能机器研究所与专业医生合作构建的医疗指令数据集,包含22万条真实医疗记录。该数据集涵盖了多个医疗部门的真实数据,经过严格的去标识化处理以保护患者隐私。数据集的内容包括医疗对话、医疗指令和一般能力数据,旨在通过监督微调和直接偏好优化方法提升模型在医疗领域的表现。该数据集的应用领域主要集中在医疗对话、诊断支持和患者咨询等方面,旨在解决医疗语言模型在专业领域知识不足的问题。
The CMedINS dataset is a medical instruction dataset constructed in collaboration with professional physicians by the Institute of Intelligent Machines, Hefei Institutes of Physical Science, Chinese Academy of Sciences, containing 220,000 real medical records. This dataset covers real data from multiple medical departments and has undergone strict de-identification processing to protect patient privacy. Its content includes medical dialogues, medical instructions and general capability data, aiming to improve the performance of models in the medical field through supervised fine-tuning and direct preference optimization methods. Its application scenarios mainly focus on medical dialogue, diagnostic support, patient consultation and other fields, aiming to address the problem of insufficient professional domain knowledge of medical language models.
提供机构:
中国科学院合肥物质科学研究院智能机器研究所
创建时间:
2025-01-06
搜集汇总
数据集介绍

构建方式
CMedINS数据集的构建基于真实的医疗场景,通过与专业医生的合作,收集了来自多个医疗部门的实际医疗记录。数据筛选过程中,确保医疗记录的完整性和准确性,并进行了严格的去标识化处理以保护患者隐私。最终,数据集以指令-查询-答案的形式构建,涵盖了超过220,000对真实的医疗指令-答案对,涉及多种医疗任务和场景。
特点
CMedINS数据集的特点在于其多样性和专业性。数据集不仅包含了单轮对话,还涵盖了多轮对话,能够更好地模拟真实的医患交流场景。此外,数据集涵盖了超过10种医疗问答场景,确保了模型在处理复杂医疗指令时的泛化能力。通过严格的去标识化处理,数据集在保护患者隐私的同时,提供了高质量的医疗数据。
使用方法
CMedINS数据集主要用于医疗领域的大型语言模型的微调和优化。通过结合监督微调(SFT)和直接偏好优化(DPO)方法,模型能够在处理医疗指令时更好地对齐人类偏好。数据集的使用方法包括:首先,利用数据集进行监督微调,提升模型对医疗指令的理解和响应能力;其次,通过DPO方法进一步优化模型的输出策略,确保其生成的回答符合医疗专业标准和安全要求。
背景与挑战
背景概述
CMedINS数据集是由中国科学院合肥物质科学研究院智能机器研究所的研究团队于2025年推出的一个医学指令数据集,旨在提升大语言模型在医学任务中的表现。该数据集包含22万对真实的医学记录,涵盖了多种医学任务,如临床文本分类、医学意图分类等。CMedINS的创建是为了解决通用大语言模型在医学领域表现不佳的问题,尤其是在缺乏专业医学知识的情况下。通过结合监督微调(SFT)和直接偏好优化(DPO)方法,研究团队开发了IIMedGPT模型,该模型在医学对话任务中表现优异,超越了现有的开源医学模型。CMedINS的发布为医学领域的大语言模型研究提供了重要的数据支持,推动了医学人工智能的发展。
当前挑战
CMedINS数据集在构建和应用过程中面临多重挑战。首先,医学领域的知识复杂且专业性强,通用大语言模型在缺乏足够医学数据的情况下容易产生错误或误导性回答,这要求数据集必须包含高质量、多样化的医学指令和对话数据。其次,数据集的构建需要确保数据的隐私性和安全性,尤其是在处理真实医疗记录时,必须进行严格的去标识化处理,并通过伦理审查。此外,医学对话通常涉及多轮交互,而现有的数据集多为单轮对话,难以反映真实的医患交流场景。最后,尽管直接偏好优化(DPO)方法在提升模型对齐人类偏好方面表现出色,但其依赖于高质量的人类偏好数据,标注过程需要医学专家的参与,增加了数据集的构建成本和时间。这些挑战使得CMedINS的构建和应用在技术和资源上都面临较高的门槛。
常用场景
经典使用场景
CMedINS数据集在医学领域的经典使用场景主要集中在大规模语言模型(LLM)的微调与优化上。通过提供来自真实医疗场景的多任务指令数据集,CMedINS能够有效提升模型在医学对话中的表现。该数据集包含六种医学指令,涵盖了从疾病诊断到药物推荐等多种医疗任务,使得模型能够在处理复杂医学问题时表现出更高的准确性和专业性。
解决学术问题
CMedINS数据集解决了医学领域大规模语言模型在预训练阶段数据不足的问题,尤其是在中医等特定领域的知识匮乏。通过提供高质量的医学指令数据集,CMedINS帮助模型在微调阶段更好地适应医学任务,避免了模型在训练过程中出现的灾难性遗忘问题。此外,该数据集还通过直接偏好优化(DPO)方法,显著提升了模型在医学对话中的指令遵循能力,减少了模型过度自信的泛化问题。
衍生相关工作
CMedINS数据集的推出催生了一系列相关研究工作,尤其是在医学语言模型的优化与扩展方面。基于CMedINS,研究人员开发了IIMedGPT模型,该模型通过直接偏好优化(DPO)方法,显著提升了模型在医学对话中的表现。此外,CMedINS还为其他医学语言模型如HuatuoGPT和DoctorGLM提供了高质量的训练数据,推动了医学领域语言模型的进一步发展。
以上内容由遇见数据集搜集并总结生成



