five

NSTG 2022 Structured Clinical Dataset

收藏
github2026-03-22 更新2026-03-25 收录
下载链接:
https://github.com/chisomrutherford/nigeria-clinical-guidelines-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个机器可读的JSON数据集,包含从尼日利亚标准治疗指南(NSTG 2022)中提取和结构化的270种临床状况。该数据集旨在用于临床应用、AI/ML管道和医学教育工具。每个状况都表示为一个JSON文件,具有统一的模式,涵盖临床特征、调查、治疗方案、鉴别诊断、并发症和预防。

This is a machine-readable JSON dataset containing 270 clinical conditions extracted and structured from the Nigerian Standard Treatment Guidelines (NSTG 2022). This dataset is intended for use in clinical applications, AI/ML pipelines, and medical education tools. Each condition is represented as a JSON file with a unified schema covering clinical features, investigations, treatment protocols, differential diagnoses, complications, and prevention.
创建时间:
2026-03-22
原始信息汇总

NSTG 2022 结构化临床数据集概述

数据集基本信息

  • 数据集名称:NSTG 2022 Structured Clinical Dataset
  • 数据来源:尼日利亚联邦卫生部发布的《尼日利亚标准治疗指南(NSTG)2022》
  • 数据格式:JSON
  • 数据规模:包含270种临床病症
  • 模式版本:1.0

数据集内容与结构

该数据集将NSTG 2022指南转换为一致、模式驱动的JSON格式,专为临床应用、AI/ML流程和医学教育工具设计。每种病症均以一个独立的JSON文件表示,遵循统一的模式。

数据结构模式

每个JSON文件包含以下字段:

  • condition_name:临床病症的完整名称
  • condition_slug:URL安全标识符
  • source:固定为“NSTG 2022”
  • introduction:定义和流行病学背景
  • clinical_features:体征和症状的类型化列表
  • investigations:推荐的诊断检查
  • treatment:包含治疗目标、非药物治疗、药物治疗、不良反应与注意事项、支持性措施
  • differential_diagnoses:需鉴别的病症
  • complications:已知的疾病并发症
  • prevention:预防措施
  • other_investigations:附加检查(稀疏字段)
  • definitive_treatment:确定性干预(稀疏字段)
  • prognosis:预后信息(稀疏字段)

预期用途

  • 临床AI/ML:为评估临床推理任务、鉴别诊断或西非临床背景下的治疗计划模型提供结构化真实数据。
  • 临床应用:作为决策支持工具、离线参考应用或社区卫生工作者工具的后端数据源。
  • 医学教育:适用于医学生的抽认卡系统、测验生成器和学习工具,特别是遵循尼日利亚或类似指南的培训。
  • 研究:用于治疗指南内容的比较分析、NLP基准测试或健康信息学研究。

数据提取方法

数据集通过临床医生监督的多阶段流程生成,旨在保持与源文档的保真度。

  1. OCR提取:使用GPT-4o处理NSTG 2022 PDF以提取原始文本。
  2. 临床医生手动整理:作者对270种病症的提取文本进行临床审查,并手动将内容组织到标记部分。
  3. 自动拆分:通过脚本将整理后的文本拆分为每个病症的独立文件。
  4. 模式设计:作者基于临床判断设计JSON模式。
  5. LLM结构化:通过异步Python流程将每个病症文件传递给GPT-4o,使用结构化提示将整理后的文本内容映射到定义的Pydantic模式,并验证输出是否符合模式。
  6. 验证:抽取40个病症的.txt文件与NSTG 2022源文档进行验证以评估OCR和整理准确性;另抽取40个JSON文件与对应的.txt文件进行比对以评估结构化准确性。

地理与临床范围

该数据集反映了尼日利亚国家指南的治疗建议。药物可用性、剂量约定和临床方案可能与国际指南不同,最适合针对尼日利亚或类似西非临床背景的应用。

许可信息

  • 许可证:知识共享署名4.0国际许可协议(CC BY 4.0)
  • 使用条款:允许任何目的(包括商业用途)的自由使用、分享和改编,但需提供适当署名。

联系方式

  • 联系人:Chisom Rutherford
  • 邮箱:chisomrutherford@gmail.com
  • LinkedIn:https://www.linkedin.com/in/chisomrutherford/
搜集汇总
数据集介绍
main_image_url
构建方式
在临床信息学领域,将非结构化医疗指南转化为机器可读格式是提升数据利用效率的关键步骤。NSTG 2022结构化临床数据集的构建采用了一条由临床医生监督的多阶段流程。初始阶段利用GPT-4o对尼日利亚标准治疗指南(NSTG 2022)的PDF文档进行光学字符识别,提取原始文本。随后,临床专家对提取出的270种病症的文本内容进行人工审阅与整理,将其归类至临床特征、治疗方案等预定义章节,确保内容的临床准确性与逻辑连贯性。接着,通过自动化脚本将整理后的文本按病症拆分为独立文件,并设计出涵盖病症介绍、临床特征、检查、治疗及预后等维度的统一JSON模式。最终,借助GPT-4o驱动的异步处理管道,将文本内容映射至该模式,生成结构化数据,并通过抽样验证确保了数据提取与结构化的准确性。
特点
该数据集的核心特征在于其高度结构化与临床针对性。它系统性地收录了尼日利亚标准治疗指南中涵盖的270种临床病症,并以统一的JSON模式呈现,确保了数据的机器可读性与一致性。每个病症文件均详细包含了病症名称、临床特征、诊断检查、药物治疗与非药物干预方案、鉴别诊断、并发症及预防措施等关键临床信息,形成了一个完整的诊疗知识单元。特别值得注意的是,其数据内容根植于尼日利亚的国家级临床指南,反映了西非地区特定的药物可用性、剂量规范及临床实践路径,为针对该区域背景的医疗人工智能应用提供了极具地域相关性的高质量基准数据。
使用方法
该数据集的设计旨在服务于多样化的临床与科研应用场景。在临床人工智能与机器学习领域,它可作为结构化的真实世界基准数据,用于训练或评估模型在临床推理、鉴别诊断或治疗规划等任务上的性能,尤其适用于西非临床语境。对于临床应用程序开发而言,数据集可作为后端知识库,为临床决策支持系统、离线参考工具或社区卫生工作者应用提供可靠的数据源。在医学教育方面,其结构化内容便于集成至抽认卡系统、测验生成器或学习工具中,辅助医学生基于尼日利亚指南进行学习。此外,研究人员可利用该数据集进行指南内容的比较分析、自然语言处理任务的基准测试或健康信息学相关研究。使用时,用户可通过解析JSON文件直接访问特定病症的完整结构化信息,并应留意其数据范围受限于源指南的地理与临床背景。
背景与挑战
背景概述
在医疗信息化与人工智能技术深度融合的背景下,结构化临床数据集的构建成为推动精准医疗与临床决策支持系统发展的关键基石。NSTG 2022结构化临床数据集由尼日利亚联邦卫生部发布的《尼日利亚标准治疗指南(2022年版)》转化而来,由研究人员Chisom Rutherford主导创建,旨在将270种临床条件的指南内容转化为机器可读的JSON格式。该数据集的核心研究问题在于解决传统临床指南文档的非结构化特性,通过统一模式整合临床特征、检查方案、治疗协议及鉴别诊断等多元信息,为西非地区的临床人工智能应用、医学教育工具及健康信息学研究提供了高质量、地域适配的标准化数据资源,显著提升了指南内容的可访问性与计算可用性。
当前挑战
该数据集致力于应对临床指南结构化与地域化应用中的双重挑战。在领域问题层面,其核心挑战在于如何从非结构化的临床文档中精准提取并标准化复杂的医学知识,以支持临床推理、鉴别诊断与治疗规划等高级人工智能任务,同时确保内容严格遵循尼日利亚本土的医疗实践与药物规范。在构建过程中,挑战主要体现在多阶段处理流程的保真度控制:首先,光学字符识别阶段需克服PDF文档格式转换中的文本错漏问题;其次,临床专家手动策展环节要求对大量医学内容进行准确归类与边界划分,耗时且依赖高度专业判断;最后,利用大语言模型进行自动化结构映射时,需设计严谨的提示工程与验证机制,以保证输出结果既符合预设模式,又忠实于原始指南的临床意图。
常用场景
经典使用场景
在临床人工智能与机器学习领域,NSTG 2022结构化临床数据集为模型训练与评估提供了标准化的基准。该数据集以JSON格式系统化地编码了尼日利亚标准治疗指南中的270种临床状况,涵盖症状特征、诊断方案、治疗协议等关键维度。研究人员可借此构建或验证临床决策支持系统,特别是在西非医疗背景下,用于模拟诊断推理、生成治疗建议或辅助医学教育工具的研发,从而提升医疗服务的可及性与准确性。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括基于其结构的临床决策支持系统原型开发、针对西非洲语境的自然语言处理模型微调,以及跨国家治疗指南的对比分析框架。例如,研究者利用该数据训练了专注于尼日利亚常见病的诊断预测模型,并探索了指南内容与真实世界临床实践之间的对齐度。这些工作不仅拓展了全球健康信息学的研究边界,也为低资源地区的数字化医疗创新提供了可复用的方法论范例。
数据集最近研究
最新研究方向
在临床人工智能领域,NSTG 2022结构化临床数据集正推动针对西非地区特定医疗场景的精准化研究。该数据集将尼日利亚标准治疗指南转化为机器可读的JSON格式,为开发适应本地药物可用性和诊疗习惯的临床决策支持系统提供了高质量基准。前沿探索聚焦于利用其结构化信息训练大语言模型,以增强在鉴别诊断和治疗规划任务中的临床推理能力,同时促进跨地域指南内容的比较分析,助力全球卫生公平性研究。这一资源不仅加速了医学教育工具的智能化转型,也为资源有限地区的健康信息学创新奠定了数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作