huzaifa525/Medical_Intelligence_Dataset_76k_2026_Edition
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/huzaifa525/Medical_Intelligence_Dataset_76k_2026_Edition
下载链接
链接失效反馈官方服务:
资源简介:
这是一个名为Medical Intelligence 76k - 2026 Edition的生产级医疗AI数据集,专为训练诊断、治疗推理和医患对话系统而设计。数据集包含76,000个经过精心设计的英文问答对,涵盖620多种疾病、438多种FDA批准的药物以及真实的医患对话。通过5阶段的质量管道确保数据的清洁和可靠性。适用于多种应用场景,包括微调医疗LLM、医疗聊天机器人、临床决策支持和医学教育工具。采用Apache 2.0许可证,完全适合商业用途。
The Medical Intelligence 76k - 2026 Edition is a production-ready medical AI dataset designed for training diagnosis, treatment reasoning, and doctor-patient conversational systems. It contains 76,000 engineered English Q&A pairs covering 620+ diseases, 438+ FDA-approved drugs, and real patient-doctor conversations. Built with a 5-stage quality pipeline to ensure cleanliness and reliability, it is suitable for various applications including fine-tuning medical LLMs, healthcare chatbots, clinical decision support, and medical education tools. Licensed under Apache 2.0, it is fully commercial-safe.
提供机构:
huzaifa525
搜集汇总
数据集介绍

构建方式
该数据集并非经由简单的网络爬取或收集而来,而是通过一套精密的五阶段质量控制流水线主动构建而成。具体而言,研究者以2024年发布的原始40k版本为基础,严格遵循Apache 2.0许可证,从开放FDA(openFDA)与MedlinePlus等权威公共数据源中合成新的问答对。在生成过程中,利用gpt-oss-120b模型进行严格的基于源文本的问答合成,杜绝自由编造,从根源上控制幻觉风险。随后,历经MinHash LSH模糊去重、CSV与HTML伪影清洗、语言过滤器剔除西班牙语内容、长度与精确重复过滤等阶段,最终产出76,000条无伪影、无重复、纯英文的高质量医学问答对,所有行均具有可追溯的源标签。
特点
该数据集最为显著的特征在于其生产就绪的工程化品质与广泛的临床覆盖范围。它涵盖了超过620种疾病、438种经FDA批准的药物(其知识更新至2025-2026年)、真实医患对话模式以及专业考试级别的推理题目。数据集的每一条记录均包含'input'、'output'与'source'三列,其中'source'列提供了行级别的出处标注,使得输出结果可追溯至具体的FDA标签、MedlinePlus主题或医学考试原题,极大地增强了可信度与审计能力。此外,数据集已通过零问题审计,确保了在零散文本长度、语言一致性及内容纯净度上的卓越表现,为模型从演示到实际部署提供了坚实的数据基础。
使用方法
该数据集专为生产级医疗AI应用设计,可直接通过Hugging Face Datasets库加载使用。用户可轻松将其用于有监督微调(SFT)或基于人类反馈的强化学习(RLHF)管线,通过将'input'与'output'字段映射为对话格式,即可无缝对接TRL的SFTTrainer、axolotl或Unsloth等训练框架。同时,利用'source'列的行级出处信息,该数据集亦非常适合构建可审计的检索增强生成(RAG)系统,用以支撑医疗问答、临床决策支持与药物知识检索等场景。由于数据量适中(76k条),它既能满足大规模微调的需求,又能保证快速迭代的实验效率。
背景与挑战
背景概述
随着大型语言模型在医疗领域的广泛应用,构建高质量、可追溯的医学对话数据集成为推动临床决策支持系统与医疗聊天机器人发展的关键。由AI产品工程师兼医学AI研究员Huzefa Nalkheda Wala于2026年创建的Medical Intelligence Dataset 76k Edition,是在其2024年发布的40k版本基础上大幅扩展的工程化数据集。该数据集由Hugging Face平台托管,包含76,000条经过五阶段质量控制流程处理的英文问答对,覆盖620余种疾病、438种FDA批准药物及真实医患对话模式,旨在解决现有医学数据集普遍存在的HTML残留、语言漂移和重复等问题。作为Apache 2.0许可的商用安全资源,该数据集为医疗大模型的指令微调与检索增强生成提供了坚实基石,其前身已支撑MedGenius LLaMA-3.2B等模型取得89%的医学准确率,对医疗AI领域产生了实质性影响。
当前挑战
该数据集所解决的核心领域挑战在于,现有医疗问答数据集多通过爬取获取,常夹杂HTML标签、公式残留、西班牙语干扰及5%-15%的重复条目,导致模型在生产环境中性能不稳定甚至失效。为应对这一问题,数据集构建过程中实施了五阶段工程化流水线:利用MinHash LSH模糊去重剔除3,290行高相似度数据,通过CSV伪影过滤器清除38行公式注入异常,执行HTML与实体清洗移除55行标签污染,借助语言甄别筛除7,769行非英语内容,并借助长度与精确去重过滤淘汰1,463行短文本或重复输入。最终实现零空值、零伪影、零重复的全量审计标准,确保每条数据的可溯源性——通过列级source标签追溯至openFDA药物标签、MedlinePlus健康主题或医学考试题目等权威来源,从而解决了医学AI从演示原型到产品级部署的关键痛点。
常用场景
经典使用场景
在医疗人工智能领域,该数据集为训练具备诊断推理能力的语言模型提供了高质量、经过工程化处理的76,000条英文问答对,覆盖620余种疾病、438种FDA批准药物及真实医患对话模式。其最经典的使用场景在于监督微调(SFT)医学大语言模型,通过将患者症状描述与临床推理答案配对,使模型掌握从症状分析到治疗建议的完整逻辑链路。数据集中不同来源的条目——如医患对话、药物说明、考试推理解释——可支撑多任务学习,尤其适合构建既能回答开放性问题又能提供结构化诊断方案的医疗对话系统。
实际应用
在实际部署中,该数据集被用于构建面向患者的智能分诊助手和药物咨询机器人,其患者风格问句与医生风格回答的配对模式使得系统能够理解模糊主诉并输出易懂的健康指导。每行附带的来源标签支持构建可审计的检索增强生成(RAG)管道,使模型引用的每一条治疗建议都能溯源至FDA标签或MedlinePlus条目,这在临床决策支持场景中至关重要。此外,数据集还直接服务于医学教育工具的研发,其中19,640条考试风格推理对可转化为交互式习题系统,帮助医学生通过案例学习掌握诊疗逻辑。
衍生相关工作
该数据集直接衍生了MedGenius LLaMA-3.2B医疗语言模型系列,基于其前身40k版本训练的模型在ROUGE-1指标上达到0.78(较基座提升86%),医学准确率达89%。衍生的8B参数Doctor AI微调模型则专注于疾病诊断与症状分析,均已发布GGUF量化版本支持边缘设备推理。在RAG领域,数据集的行级溯源特性催生了基于Qdrant向量库与混合检索的生产级系统架构(p95延迟850ms),为医疗知识库的实时应答提供了工程范式。这些工作共同验证了结构化医疗数据在提升模型事实性和安全性方面的关键作用。
以上内容由遇见数据集搜集并总结生成



