five

Diabetes-Clinical-Intruction-ENG

收藏
Hugging Face2026-03-05 更新2026-03-06 收录
下载链接:
https://huggingface.co/datasets/Bernardosalerno/Diabetes-Clinical-Intruction-ENG
下载链接
链接失效反馈
官方服务:
资源简介:
Diabetes Clinical Instruction Dataset 是一个经过医学验证的高质量指令调优数据集,包含745个样本,专注于糖尿病学、血糖管理和患者护理。该数据集专为LLM对齐(SFT)和专用医疗助手的微调而设计,每个样本都经过了严格的多阶段精炼和审核过程。数据集采用JSONL格式(包含'instruction'、'input'、'output'字段),语言为英语,临床重点包括1型和2型糖尿病、妊娠糖尿病、胰岛素泵管理、CGM数据解释和饮食临床指南。数据集适用于模型无关的对齐、RAG基准测试和健康科技原型开发。该版本采用CC-BY-NC-4.0许可发布,仅用于研究和模型训练目的,不能替代专业医疗建议。

The Diabetes Clinical Instruction Dataset is a high-quality, medically validated instruction-tuning dataset consisting of 745 samples, focusing on diabetology, blood glucose management and patient care. This dataset is specifically designed for Large Language Model (LLM) alignment (Supervised Fine-Tuning, SFT) and fine-tuning of specialized medical assistants, with each sample having undergone a rigorous multi-stage refinement and review process. The dataset is stored in JSONL format, containing the fields 'instruction', 'input' and 'output', and is written in English. Its clinical focus covers type 1 and type 2 diabetes mellitus, gestational diabetes mellitus, insulin pump management, continuous glucose monitoring (CGM) data interpretation and dietary clinical guidelines. This dataset is suitable for model-agnostic LLM alignment, RAG benchmarking and health technology prototype development. This version is released under the CC-BY-NC-4.0 license, for research and model training purposes only, and shall not be used as a substitute for professional medical advice.
创建时间:
2026-03-05
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Diabetes Clinical Instruction Dataset (745 Samples)
  • 数据集地址: https://huggingface.co/datasets/Bernardosalerno/Diabetes-Clinical-Intruction-ENG
  • 许可证: CC-BY-NC-4.0 (知识共享署名-非商业性使用 4.0)
  • 任务类别: 文本生成、问答
  • 语言: 英语
  • 标签: 医学、糖尿病、医疗保健、微调、指令微调、合成数据
  • 规模类别: n<1K (小于1000个样本)

内容与规模

  • 总样本量: 745个 (完整版本)
  • 预览样本量: 50个 (当前页面提供)
  • 数据格式: JSONL (包含 instruction, input, output 字段)
  • 临床焦点: 1型和2型糖尿病、妊娠期糖尿病、胰岛素泵管理、连续血糖监测数据解读、饮食临床指南。

数据集特点

  • 性质: 经过医学验证的优质指令微调数据集。
  • 设计目的: 专门用于大型语言模型的对齐微调,以开发专业的医疗助手。
  • 质量保证: 每个条目都经过严格的多阶段提炼和审核流程。
  • 工程流程:
    1. 上下文生成: 生成注重临床深度的初始样本。
    2. 算法去噪: 自动脚本移除所有“AI助手”对话模式和免责声明。
    3. 医学审核: 每个样本均由GPT-4o审核,仅保留临床准确性和安全性评分为4/5或5/5的样本。
    4. 安全优先: 在此阶段因模糊性或临床细节不足而丢弃了55个样本。

主要用途

  • 模型无关的对齐: 适用于任何LLM架构的监督微调。
  • RAG基准测试: 用于测试检索增强生成系统的准确性。
  • 健康科技原型开发: 加速开发专注于糖尿病的虚拟助手。

访问与许可

  • 完整数据集获取: 需通过指定链接购买 (https://diabetes-data.lemonsqueezy.com/checkout/buy/0bdf37d0-b0d1-43ca-90d5-0eb845851ab5?discount=0)。
  • 主页: https://diabetes-data.lemonsqueezy.com/checkout/buy/0bdf37d0-b0d1-43ca-90d5-0eb845851ab5?discount=0
  • 商业使用限制: 根据CC-BY-NC-4.0许可证,禁止商业用途。
  • 免责声明: 该数据集仅用于研究和模型训练目的,不能替代专业医疗建议。
搜集汇总
数据集介绍
构建方式
在糖尿病临床医学领域,高质量指令数据集的构建需兼顾专业深度与安全性。本数据集采用多阶段蒸馏与验证流程,首先基于临床深度生成初始样本,超越传统问答模式,涵盖详细医学解释。随后通过算法去噪移除人工智能助手的对话模式与免责声明,确保内容纯净。核心环节引入大型语言模型作为评审,由GPT-4o对每一条样本进行医学审计,仅保留临床准确性与安全性评分达到4/5及以上的条目,在此过程中因模糊性或临床细节不足而剔除了55条样本,最终形成包含745条样本的精炼集合。
使用方法
数据集以JSONL格式提供,适用于多种自然语言处理任务。在模型无关对齐方面,其标准化的指令-输出对可直接用于监督微调,适配各类大型语言模型架构。同时,高质量问答对可作为检索增强生成系统的准确性基准,用于评估医疗信息检索性能。研究人员与开发者可借助该数据集加速糖尿病专科虚拟助手的原型开发,但需注意数据集仅限研究与模型训练用途,不可替代专业医疗建议。
背景与挑战
背景概述
在医疗人工智能领域,糖尿病作为全球性的慢性疾病,其临床管理需要高度专业化的知识支持。Diabetes-Clinical-Instruction-ENG数据集于近期创建,由专注于医疗数据工程的团队开发,核心研究问题聚焦于通过指令微调技术提升大型语言模型在糖尿病诊疗、血糖管理及患者护理方面的专业能力。该数据集通过严格的医学验证流程,旨在推动医疗助手模型的精准对齐,为糖尿病专科的智能化应用提供高质量、安全可靠的数据基础,对促进健康科技的原型开发与评估具有显著影响力。
当前挑战
该数据集致力于解决糖尿病临床问答与决策支持中的挑战,包括处理复杂多变的病情场景、确保医学解释的准确性与安全性,以及避免通用对话模式对专业内容的干扰。在构建过程中,挑战主要源于医学数据的深度提炼:需要从初步生成的样本中去除人工智能助手的对话痕迹,并通过自动化去噪与GPT-4o的严格审计,筛选出临床精度达标的样本,同时舍弃模糊或缺乏临床细微差别的条目,以维持数据的高标准与可靠性。
常用场景
经典使用场景
在糖尿病临床医学与人工智能交叉领域,该数据集作为高质量指令微调资源,其经典应用场景聚焦于大型语言模型的领域专业化对齐。通过精心设计的指令-输出对,研究者能够对通用模型进行监督微调,使其掌握糖尿病管理的专业知识,如胰岛素泵调控、连续血糖监测数据解读及饮食指南咨询,从而构建具备临床深度的专科医疗助手原型。
解决学术问题
该数据集有效应对了医学人工智能研究中高质量标注数据稀缺的核心挑战。其通过多阶段蒸馏与验证流程,确保了样本的临床准确性与安全性,为模型在糖尿病专科领域的可靠性与安全性评估提供了基准。这促进了医疗自然语言处理任务从通用问答向具备严谨临床推理能力的深度交互转变,推动了可信赖医疗AI的发展。
实际应用
在实际医疗健康科技场景中,该数据集可直接用于加速糖尿病专科虚拟助手的开发与原型验证。其格式化的高质量问答对能够作为检索增强生成系统的精准性测试基准,帮助评估医疗信息检索与合成的可靠性。此外,它也为健康科技公司提供了快速构建具备初步糖尿病教育、日常管理建议功能的对话式AI工具的核心训练材料。
数据集最近研究
最新研究方向
在糖尿病临床管理领域,随着生成式人工智能技术的快速发展,高质量医疗指令数据集成为推动专科医疗助手模型精细调优的关键资源。Diabetes-Clinical-Intruction-ENG数据集凭借其经过多阶段医学审核的745条样本,正被广泛应用于大语言模型的监督微调与指令对齐研究。前沿探索聚焦于利用此类结构化临床数据提升模型在胰岛素泵管理、连续血糖监测数据解读等复杂场景下的解释能力与安全性,同时为检索增强生成系统在糖尿病教育中的准确性评估提供基准。这一趋势呼应了全球健康科技领域对专业化、可验证人工智能辅助工具日益增长的需求,为开发下一代循证糖尿病管理助手奠定了数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作