drug_label_approved_openfda

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/Oduwo/drug_label_approved_openfda

下载链接

链接失效反馈

官方服务：

资源简介：

KEMIRIX OpenFDA临床药物数据集是一个专为临床决策支持AI训练设计的高质量文本数据集，由Emmanuel Bain Oduwo（TechFryz Ltd.，肯尼亚内罗毕）于2026年5月生成。该数据集包含25,000条结构化临床记录，基于美国FDA的OpenFDA药物标签数据构建，并丰富了基于证据的临床药理学内容，旨在微调大型语言模型以支持资源有限环境中的医疗专业人员。数据分为三个层级：Tier 1（10,000条完整临床专论，涵盖13个章节）、Tier 2（10,000条临床场景问答，涉及药物相互作用、特殊人群和药物基因组学）和Tier 3（5,000条基础问答，包括适应症、禁忌症、作用机制和副作用）。每条记录采用JSON格式，包含“instruction”（临床问题或任务）和“output”（基于证据的临床答案）字段。数据集强调高质量标准：仅使用人类临床数据（无动物数据），采用2026年PLLR妊娠叙述（避免过时分类），提供完整的药物相互作用档案（含机制、后果和管理建议），并融入非洲患者背景（如G6PD缺乏、HIV/ARV、结核病和传统医学）。所有记录均通过多门质量系统验证（Tier 1为13门检查，Tier 2为8门，Tier 3为5门）。数据集适用于文本生成和问答任务，特别是临床决策支持场景，但明确声明不替代临床判断或当前处方信息。数据以英语为主，遵循Apache-2.0许可证，源数据来自OpenFDA的开放数据许可。

创建时间：

2026-05-19

原始信息汇总

数据集概述

数据集名称： KEMIRIX OpenFDA Clinical Drug Dataset
开发者： Emmanuel Bain Oduwo（TechFryz Ltd.，肯尼亚内罗毕）
生成日期： 2026年5月
许可协议： Apache-2.0
语言： 英语
数据集大小： 10,000 < n < 100,000 条记录

任务类别

文本生成
问答

数据集描述

该数据集包含 25,000 条结构化临床记录，来源于 FDA OpenFDA 药物标签，并补充了基于证据的临床药理学信息，适用于微调临床决策支持的大型语言模型。所有记录均通过多关卡质量系统验证。

文件结构

文件	记录数	描述
`tier1_monographs.jsonl`	10,000	完整的13节临床专著
`tier2_scenarios.jsonl`	10,000	临床场景问答（药物相互作用、特殊人群、药物基因组学等）
`tier3_basic.jsonl`	5,000	基础问答（适应症、禁忌症、作用机制、副作用等）

数据格式

每条记录为 JSON 对象，包含“instruction”（临床问题或任务）和“output”（基于证据的临床答案）两个字段。

质量标准

✅ 仅使用人类临床数据（无动物/啮齿动物数据）
✅ 2026年PLLR妊娠叙述（无过时的FDA A/B/C/D/X分类）
✅ 完整的药物相互作用档案（含机制、后果及管理建议）
✅ 融入非洲患者背景（G6PD缺乏症、HIV/ARV、结核病、传统医学）
✅ 通过多关卡质控：T1（13关）、T2（8关）、T3（5关）

预期用途

用于训练面向医疗保健专业人员的临床AI决策支持系统，尤其适用于资源有限的环境。不可替代临床判断或当前处方信息。

数据来源

基于 OpenFDA 药物标签数据生成，遵循开放数据许可协议。

搜集汇总

数据集介绍

构建方式

本数据集基于美国食品药品监督管理局（FDA）的OpenFDA药物标签公开数据，通过系统化抽取与结构化处理构建而成。原始数据经多层级清洗与标准化流程，剔除动物或啮齿类实验数据，仅保留人类临床信息。构建过程遵循2026年PLLR妊娠叙事标准，摒弃过时的FDA A/B/C/D/X分类体系。数据集包含25,000条结构化临床记录，依据内容复杂度与用途划分为三个层级：tier1涵盖完整的13节临床专论，tier2聚焦临床场景问答（涵盖药物相互作用、特殊人群及药物基因组学），tier3提供基础问答（适应症、禁忌症、作用机制与副作用）。每一条记录均以JSON格式存储，包含指令与对应的循证答案字段。

使用方法

该数据集专为微调大型语言模型以支持临床决策而设计，主要服务于资源有限环境下的医疗专业人员。用户可直接加载JSONL格式的层级文件，利用其中的指令-答案配对进行模型训练。鉴于数据集包含三种不同类型的记录，使用者可根据目标任务选择相应层级：完整专论适用于生成综合性药物咨询，场景问答适用于训练复杂的临床推理能力，基础问答则适宜处理常见药物信息查询。需特别注意的是，该数据集并非临床决策的替代品，不应用于取代当前用药指南或专业临床判断。

背景与挑战

背景概述

该数据集由肯尼亚TechFryz Ltd.的Emmanuel Bain Oduwo于2026年5月创建，专为非洲首个临床决策支持AI系统KEMIRIX设计。它利用美国食品药品监督管理局（FDA）OpenFDA平台的药物标签数据，生成了25,000条结构化临床记录，涵盖完整临床专著、场景问答及基础问答三类数据。核心研究问题聚焦于为资源有限地区的医疗专业人员提供基于证据的临床决策支持，特别整合了非洲患者特有的遗传与环境因素，如G6PD缺乏症、HIV/ARV联合用药及传统药物交互作用。该数据集在医学AI领域具有开创性意义，不仅弥补了现有临床数据集对非洲人群覆盖不足的缺陷，还通过多门质控体系保障了数据质量，为低资源环境下的临床AI训练树立了新标杆。

当前挑战

该数据集面临的挑战首先在于所解决的领域问题：临床决策支持系统需要在低资源环境下提供安全有效的药物信息，但现有数据集大多基于欧美人群，缺乏对非洲特有疾病谱、遗传变异（如G6PD缺乏症）及传统草药交互作用的覆盖，导致模型在当地应用时存在显著偏差。其次，构建过程中遭遇多重困难：从OpenFDA提取的原始标签数据需转化为结构化临床记录，需人工验证13个章节的完整性；需重构已过时的FDA孕期药物分类（A/B/C/D/X）为2026年PLLR叙事格式；还需整合非洲患者背景中的复杂用药场景（如HIV/ARV与TB治疗叠加），这在标准数据库中是罕见的。此外，多门质控体系（T1至T3分别对应13、8、5道验证关卡）虽保障了数据质量，但也大幅增加了构建成本与时间，如何平衡全面性与效率成为核心工程挑战。

常用场景

经典使用场景

在临床决策支持系统的构建中，药物标签数据是医疗AI模型训练的核心基石。该数据集通过系统化整理FDA OpenFDA药物标签中的25,000条结构化临床记录，为大型语言模型提供了高质量的微调语料。其经典使用场景涵盖三个层次：Tier1中的完整13章节临床专论用于训练模型掌握全面的药物知识体系；Tier2中的10,000条临床场景问答专攻药物相互作用、特殊人群用药和药物基因组学等复杂决策任务；Tier3的5,000条基础问答则聚焦适应症、禁忌症、作用机制和副作用等基础知识点，形成了阶梯式的训练架构。这种分层设计使得模型能够在不同复杂度水平上逐步构建临床推理能力。

解决学术问题

该数据集精准回应了临床自然语言处理领域的多个关键学术挑战。首先，它解决了低资源环境中临床AI模型训练数据匮乏的问题，提供了经过多级质量验证的25,000条结构化记录。其次，数据集特别纳入非洲患者群体特征（如G6PD缺乏症、HIV/ARV药物、结核病及传统医学用药背景），填补了现有临床数据集中对特定人群用药安全研究的空白。此外，数据集采用2026年PLLR妊娠叙述标准替代过时的FDA A/B/C/D/X分类体系，推动了药物安全性评价方法学的更新。这些设计对于提升临床决策支持系统在资源有限地区的适用性和公平性具有深远的学术意义。

实际应用

该数据集最直接的实际应用场景是训练非洲首个临床决策支持AI系统KEMIRIX，服务于肯尼亚及整个非洲大陆的医疗专业人员。在日常临床实践中，医生可利用基于该数据集微调的模型快速查询药物相互作用机制与处理方案，获知针对特殊人群（如孕妇、G6PD缺乏症患者）的精准用药建议，并获取基于证据的临床问题解答。对于资源有限的基层医疗机构，这一系统有助于弥合专业药理学知识鸿沟，减少用药错误。此外，该数据集也可用于开发医院信息系统中的智能药物审查模块、临床药学教学工具以及药品安全监测平台，全面提升医疗服务质量与患者安全。

数据集最近研究