jojo-ai-mst/Myanmar-Tuberculosis-Guidelines-Instructions
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/jojo-ai-mst/Myanmar-Tuberculosis-Guidelines-Instructions
下载链接
链接失效反馈官方服务:
资源简介:
缅甸结核病指南指令数据集是一个双语(缅甸语和英语)教学资源,旨在为医疗工作者、教育工作者和人工智能研究人员提供支持。该数据集基于世界卫生组织(WHO)的结核病指南、缅甸国家结核病计划(NTP)文件和医学参考文本,包含指令-响应对,涵盖诊断、治疗方案、药物管理和患者教育等领域。其目标是填补缅甸语标准化结核病教育材料的空白,并为低资源语言的医学自然语言处理(NLP)研究提供支持。数据集包含2043条记录,分为7个结核病相关类别,文件格式为TSV和JSON。
The Myanmar Tuberculosis Instruction Dataset is a bilingual (Myanmar and English) instructional resource designed to support healthcare workers, educators, and AI researchers. It consists of instruction-response pairs derived from WHO tuberculosis guidelines, Myanmar National TB Programme (NTP) documents, and medical reference texts, covering areas such as diagnosis, treatment regimens, drug management, and patient education. The dataset aims to address the lack of standardized TB educational materials in the Myanmar language and to facilitate medical NLP research in low-resource settings. It includes 2,043 records categorized into 7 TB-related domains, available in TSV and JSON formats.
提供机构:
jojo-ai-mst
搜集汇总
数据集介绍

构建方式
缅甸结核病指南指令数据集是一套精心构建的双语指令数据集,旨在弥合缅甸语结核病教育资源匮乏的困境。该数据集以世界卫生组织结核病指南、缅甸国家结核病规划方案以及权威医学参考文本为核心素材,由领域专家基于受控的缅甸医学术语表进行翻译、重组与对齐。构建过程并非逐字直译,而是秉持清晰的教学性原则,将原文改写为缅甸语-英语指令-响应对形式。为确保质量,每一条目均经过源文对照核查、术语一致性检验及教学清晰度评估。最终,数据被整理为包含7个结核病主题类别的2,043条记录,以TSV和JSON格式发布。
特点
该数据集的核心特质在于其双语指令对齐结构,每一条目均包含缅甸语和英语的指令与响应,覆盖治疗指南、医护培训、耐药结核病、患者教育、诊断规程、药物管理及感染控制七大类别,其中治疗与培训类别数据占比最高,精准回应了缅甸本土最迫切的知识缺口。数据集严格遵循WHO与缅甸国家结核病规划的标准术语体系,确保了医学概念的准确性与一致性。此外,数据全部源自公开的指南与教材,不含任何患者个人信息或临床病例,在教育与科研目的下具有高度的伦理合规性。
使用方法
该数据集的应用场景多元而灵活,可直接用于缅甸语大语言模型的指令微调与医疗问答系统开发,为低资源语言的医学自然语言处理提供稀缺的高质量训练语料。研究者也可将其作为文本分类基准,依据结核病领域类别进行标签预测。此外,数据的双语对齐特性使其成为评估医疗文本机器翻译质量的有力工具,支持缅甸语与英语之间的翻译评价。数据集还适用于结核病指南内容的摘要生成研究,以及构建面向医护人员培训或患者教育的AI辅助工具,全面提升缅甸结核病防治知识的信息化水平。
背景与挑战
背景概述
结核病(Tuberculosis)依然是缅甸最严峻的公共卫生挑战之一,然而高质量的缅语结核病教育资料却极其匮乏,大多数权威指南仅以英文存在。为弥合这一语言鸿沟,Min Si Thu与Khin Myat Noe于2026年创建了Myanmar-Tuberculosis-Guidelines-Instructions数据集。该数据集从世界卫生组织(WHO)结核病指南、缅甸国家结核病规划(NTP)及权威医学参考书中系统性地提取内容,经翻译、重构与对齐,形成包含2,043条缅英双语指令-响应对的结构化资源。其核心研究问题在于:如何将全球标准的结核病知识转化为本土可用的教育与AI训练素材,从而赋能医疗工作者培训、患者教育以及低资源语言下的医学自然语言处理研究。该数据集填补了缅语医学指令数据的空白,为后期构建缅语医疗大语言模型提供了关键的基础设施支撑。
当前挑战
该数据集面临的挑战可从两个维度理解。在领域问题层面,结核病高负担国家普遍面临语言障碍导致的知识传导断层,即权威指南无法有效触达一线医护人员和患者;同时,缅甸语作为低资源语言,在医学自然语言处理领域几乎缺乏任何可用的训练数据,这阻碍了AI辅助诊断、问答与教育工具的开发。在构建过程层面,挑战源自三重困境:一是术语标准化,须在WHO术语、NTP临床实际用语和缅语本土表达之间求得精确且一致的对齐;二是翻译的信度与效度,既要避免字对字直译的生硬,又要保证医学含义不失真;三是版本更新,WHO与NTP的指南周期性修订,而数据集更新滞后于源头文档,意味着其时效性面临持续性考验。此外,所涉内容仅限于结核病领域,对TB-HIV共病等复杂临床场景覆盖不足,构成了一定范围局限。
常用场景
经典使用场景
在低资源语言医学自然语言处理领域,Myanmar-Tuberculosis-Guidelines-Instructions 数据集最为经典的使用场景是构建缅甸语医学指令微调与问答系统。该数据集将世界卫生组织与缅甸国家结核病规划的权威指南,系统性地转化为缅甸语与英语一一对应的指令—应答对,覆盖诊断、用药、医护培训、患者教育等七个核心类别。研究者可借助这些双语对齐的医学文本,对大型语言模型进行指令微调,使其具备用缅甸语理解并回答结核病相关专业问题的能力。这一场景直接填补了缅甸语医学NLP训练数据极度匮乏的空白,为后续更广泛的低资源语言医疗AI研究奠定了坚实的数据基础。
实际应用
在实际应用中,该数据集主要服务于两类场景。其一,用于构建面向缅甸医护人员的AI辅助教育工具,例如基于指令微调后的对话模型,可实时解答基层卫生工作者关于结核病治疗方案、耐药管理或感染控制的专业疑问,缓解资源匮乏地区培训材料不足的困境。其二,用于开发面向公众的患者教育系统,通过缅甸语问答界面提供标准化、易于理解的结核病防治知识,提升患者的疾病认知与治疗依从性。此外,该数据集还可作为医疗机器翻译的基准测试集,评估英文医学指南到缅甸语的自然度与准确性,推动跨语言医学信息服务的落地。
衍生相关工作
基于该数据集,已催生了一系列具有代表性的衍生工作。在模型层面,研究者利用其指令微调缅甸语医疗大语言模型MyanmarGPT,初步实现了结核病领域的缅甸语智能问答;在评测层面,该数据集被用作低资源语言医学翻译系统的评估基准,推动了对缅甸语医学NLP系统翻译质量与临床语义保持度的系统性分析。此外,围绕该数据集的术语控制方法论,出现了关于“缅甸语医学词汇标准化构建”的后续研究,探索如何将术语校验流程自动化并扩展至其他传染病领域。这些工作共同将数据集从一个静态资源,延伸为低资源语言医学AI生态中激发新方法与新工具的活水源泉。
以上内容由遇见数据集搜集并总结生成



