FineMed
收藏arXiv2025-01-16 更新2025-01-18 收录
下载链接:
https://github.com/hongzhouyu/FineMed
下载链接
链接失效反馈官方服务:
资源简介:
FineMed是由复旦大学计算机科学学院开发的高质量医学对话数据集,旨在提升大型语言模型在医学领域的推理能力。该数据集包含约300,000条样本,涵盖复杂的医学指令和长形式推理数据。数据来源包括互联网语料库(如Common Crawl)和医学知识文本,通过指令生成、评分、过滤和响应生成四个步骤合成。FineMed数据集的应用领域主要集中在医学对话理解和复杂医学任务推理,旨在解决现有医学语言模型在深度推理能力上的不足,提升模型在疾病诊断和治疗规划等任务中的表现。
FineMed is a high-quality medical dialogue dataset developed by the School of Computer Science, Fudan University, aimed at enhancing the reasoning capabilities of large language models (LLMs) in the medical field. This dataset contains approximately 300,000 samples, covering complex medical instructions and long-form reasoning data. Its data sources include internet corpora (such as Common Crawl) and medical knowledge texts, and it is synthesized via four sequential steps: instruction generation, scoring, filtering, and response generation. The primary application domains of the FineMed dataset focus on medical dialogue understanding and complex medical task reasoning, aiming to address the limitations of existing medical language models in terms of deep reasoning capabilities and improve the performance of models in tasks such as disease diagnosis and treatment planning.
提供机构:
复旦大学计算机科学学院
创建时间:
2025-01-16
原始信息汇总
FineMed 数据集概述
数据集来源
- 数据集由 FineMed 项目提供,相关代码和介绍可在 GitHub 仓库中找到。
数据集存储位置
- 数据集已上传至 Hugging Face 平台。
模型存储位置
- FineMedLM 和 FineMedLM-o1 模型已上传至 Hugging Face 平台。
研究复现步骤
- 生成合成数据(Synthetic Data)。
- 运行 Qwen_med_cls。
- 进行监督微调(SFT)。
引用信息
- 如果 FineMed 或该仓库对您的研究有帮助,请使用提供的 BibTeX 条目进行引用。
搜集汇总
数据集介绍

构建方式
FineMed数据集的构建过程分为多个阶段,首先从FineFineWeb的医学子集中随机选取420,000个样本作为原始医学文本。随后,通过Qwen模型生成两个不同的指令,并对每个指令进行质量和复杂性评分。通过多步过滤,最终筛选出333,000个高质量、高复杂度的指令样本。接着,根据指令的复杂性,将其分为常见和复杂两类,分别生成响应。对于复杂指令,QwQ模型生成长篇推理响应,形成包含o1风格数据的SFT数据集。最后,通过DPO(Direct Preference Optimization)进一步优化模型的推理能力。
特点
FineMed数据集的特点在于其高质量和复杂性。该数据集包含300,000个SFT样本和33,000个DPO样本,涵盖了广泛的医学领域和子领域。通过引入o1风格的长篇推理数据,FineMed显著提升了模型在复杂医学场景中的推理能力。此外,数据集的构建过程中采用了严格的验证框架,确保数据的医学相关性、复杂性和特异性。FineMed在质量和复杂性上均优于现有的开源医学数据集,尤其在处理需要深度推理的医学问题时表现出色。
使用方法
FineMed数据集的使用方法主要包括三个阶段:SFT(Supervised Fine-Tuning)、DPO(Direct Preference Optimization)和TTT(Test-Time Training)。首先,模型通过SFT阶段在FineMed数据集上进行微调,逐步从广泛的医学领域过渡到特定的子领域。随后,在DPO阶段,模型使用o1风格的长篇推理数据进行进一步优化,增强其推理能力。最后,在推理阶段引入TTT,模型通过检索与当前任务最相似的实例进行训练,进一步提升推理性能。FineMedLM-o1模型在多个医学基准测试中表现出色,尤其在需要复杂推理的任务中表现尤为突出。
背景与挑战
背景概述
FineMed数据集由复旦大学计算机科学学院的Hongzhou Yu等人于2025年提出,旨在提升大语言模型(LLMs)在医学领域的推理能力。该数据集通过高质量的合成医学数据和长形式推理数据,结合监督微调(SFT)和直接偏好优化(DPO)技术,增强了模型在复杂临床场景中的推理能力。FineMedLM-o1模型在关键医学基准测试中表现出色,平均性能提升了23%,并通过引入测试时训练(TTT)进一步提升了14%的性能。FineMed的发布为医学LLMs的研究提供了高质量的数据支持,推动了医学推理能力的发展。
当前挑战
FineMed数据集在构建过程中面临多重挑战。首先,医学领域的复杂推理需求要求数据集不仅包含丰富的医学知识,还需具备逻辑结构和长形式推理数据,以支持模型的深度推理能力。其次,现有医学数据集普遍缺乏高质量的链式推理(CoT)数据,导致模型在处理复杂医学问题时表现不佳。此外,合成数据的质量验证和复杂性评估也是构建过程中的关键挑战。FineMed通过引入o1风格的长形式推理数据和TTT技术,有效解决了这些问题,但如何进一步提升数据多样性和覆盖范围仍是未来研究的重点。
常用场景
经典使用场景
FineMed数据集在医学领域的经典使用场景主要集中在复杂临床推理任务上,如鉴别诊断和个性化治疗建议。该数据集通过高质量的合成医学数据和长形式推理数据,支持监督微调(SFT)和直接偏好优化(DPO),使得模型能够在医学对话中展现出深层次的推理能力。特别是在测试时训练(TTT)的引入,进一步增强了模型在医学领域的适应性和推理准确性。
实际应用
FineMed数据集在实际应用中,能够帮助医生进行快速准确的诊断和治疗方案制定。通过增强模型的推理能力,该数据集可以支持医疗机构的资源优化,提升医疗服务的效率和质量。特别是在复杂病例的处理中,FineMedLM-o1能够提供更为可靠和准确的推理结果,减少医疗错误的风险。
衍生相关工作
FineMed数据集的发布推动了医学大语言模型领域的研究进展。基于该数据集,研究者们开发了多个衍生模型,如HuatuoGPT-o1,这些模型在医学推理任务中表现出色。此外,FineMed的合成数据生成方法和测试时训练技术也为其他领域的大语言模型研究提供了宝贵的参考,推动了复杂推理能力的提升。
以上内容由遇见数据集搜集并总结生成



