five

Burmese-Microbiology-1K

收藏
Hugging Face2024-07-24 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/jojo-ai-mst/Burmese-Microbiology-1K
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为‘1000 Clinical Microbiology Question-Answer in Burmese Language’,由Min Si Thu创建,包含1262行指令和输出对,主要关注临床微生物学的基础知识,涉及微生物、细菌、病毒、真菌、寄生虫及其引起的疾病。数据集可用于构建与医学相关的NLP应用,如预训练或微调缅甸语大型语言模型。
创建时间:
2024-07-24
原始信息汇总

数据集概述

基本信息

  • 许可证: CC BY SA 4.0
  • 任务类别:
    • 文本生成
    • 文本到文本生成
  • 语言:
    • 缅甸语
    • 英语
  • 标签:
    • 生物学
    • 医学
  • 数据集名称: 1000 Clinical Microbiology Question-Answer in Burmese Language
  • 数据规模: 1K<n<10K

数据集描述

  • 数据格式: CSV
  • 数据行数: 1262行
  • 内容: 临床微生物学基础知识,包括培养基、微生物(细菌、病毒、真菌、寄生虫)及其引起的疾病等基本事实。

示例

  • 问题: ငှက်ဖျားရောဂါဆိုတာ ဘာလဲ? 答案: ငှက်ဖျားရောဂါသည် Plasmodium ကပ်ပါးကောင်ကြောင့် ဖြစ်ပွားသော အသက်အန္တရာယ်ရှိနိုင်သည့် သွေးရောဂါတစ်မျိုးဖြစ်သည်။ ၎င်းသည် ငှက်ဖျားခြင်ကိုက်ခြင်းမှတဆင့် ကူးစက်ပျံ့နှံ့သည်။

  • 问题: Influenza virus အကြောင်း အကျဉ်းချုပ် ဖော်ပြပါ။ 答案: Influenza virus သည် တုပ်ကွေးရောဂါ ဖြစ်စေသော RNA ဗိုင်းရပ်စ် ဖြစ်သည်။ Orthomyxoviridae မိသားစုဝင် ဖြစ်ပြီး type A၊ B၊ C နှင့် D ဟူ၍ အမျိုးအစား လေးမျိုး ရှိသည်။

  • 问题: Clostridium tetani ဆိုတာ ဘာလဲ? 答案: Clostridium tetani သည် မေးခိုင်ရောဂါ ဖြစ်စေသော gram-positive၊ anaerobic bacteria တစ်မျိုး ဖြစ်သည်။ မြေဆီလွှာတွင် တွေ့ရလေ့ရှိသည်။

  • 问题: Onychomycosis ဆိုတာ ဘာလဲ? 答案: Onychomycosis သည် လက်သည်း သို့မဟုတ် ခြေသည်းများတွင် ဖြစ်ပွားသော မှိုကူးစက်မှုဖြစ်သည်။ ၎င်းသည် လက်သည်း သို့မဟုတ် ခြေသည်းများကို ထူထဲစေပြီး အရောင်ပြောင်းလဲစေသည်။

数据集下载

应用

  • 可用于预训练或微调缅甸语大型语言模型。
  • 适用于构建基于检索增强生成(RAG)的应用程序。

引用

txt Si Thu, M. (2024). Burmese MicroBiology 1K Dataset (1.1) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.12803638

搜集汇总
数据集介绍
main_image_url
构建方式
Burmese-Microbiology-1K数据集的构建源于作者在2019年作为医学生时所记录的微生物学笔记。为了填补缅甸语在医学领域资源的空白,作者在此基础上补充了更多事实和笔记,最终整理出1262条指令与输出对的数据集。该数据集以CSV格式存储,涵盖了培养基、微生物(细菌、病毒、真菌、寄生虫)及其引发疾病的基础知识。
特点
该数据集专注于临床微生物学的基础知识,内容涵盖广泛,包括细菌、病毒、真菌和寄生虫等微生物及其相关疾病。数据集以缅甸语为主,同时包含部分英语内容,适用于缅甸语大语言模型的预训练或微调。其高质量的问题-答案对形式使其特别适合构建基于检索增强生成(RAG)的应用。
使用方法
Burmese-Microbiology-1K数据集可用于多种医学相关的自然语言处理任务。用户可通过GitHub、Zenodo、Hugging Face或Kaggle平台下载数据集。该数据集可直接用于缅甸语大语言模型的预训练或微调,也可用于构建基于检索增强生成(RAG)的应用。使用时应遵循CC BY-SA 4.0许可协议,并引用相关文献以尊重作者的贡献。
背景与挑战
背景概述
Burmese-Microbiology-1K数据集由Min Si Thu于2024年创建,旨在填补缅甸语医学领域高质量数据资源的空白。该数据集包含1262条缅甸语临床微生物学问答对,涵盖了培养基、细菌、病毒、真菌、寄生虫及其引发的疾病等基础知识点。Min Si Thu基于其2019年作为医学生时的笔记,进一步扩展和整理,形成了这一数据集。该数据集的发布为缅甸语大语言模型在医学领域的预训练和微调提供了重要支持,推动了缅甸语自然语言处理技术的发展。
当前挑战
Burmese-Microbiology-1K数据集在构建过程中面临多重挑战。首先,缅甸语医学资源的稀缺性使得数据收集和整理极为困难,需要依赖有限的文献和个人笔记进行扩展。其次,确保数据的准确性和权威性是一项重要任务,需参考国际权威医学资料并进行缅甸语翻译。此外,数据集的规模相对较小,可能限制了其在复杂任务中的应用效果。最后,缅甸语的语言特性,如复杂的语法结构和专业术语的翻译,也为数据集的构建增加了难度。这些挑战需要在未来的数据扩展和优化中逐步解决。
常用场景
经典使用场景
在缅甸语医学领域,Burmese-Microbiology-1K数据集为构建和优化大型语言模型提供了宝贵资源。该数据集包含1262对问答,涵盖了临床微生物学的基础知识,如培养基、细菌、病毒、真菌、寄生虫及其引发的疾病。这些数据不仅支持模型的预训练和微调,还为开发基于检索增强生成(RAG)的应用提供了直接可用的素材。
衍生相关工作
基于Burmese-Microbiology-1K数据集,研究人员已开展了多项相关工作。例如,利用该数据集训练的语言模型被应用于缅甸语医学文本的分类和生成任务。此外,该数据集还启发了更多针对缅甸语医学领域的资源开发,如缅甸语医学术语词典和医学知识图谱,进一步推动了缅甸语医学自然语言处理的研究和应用。
数据集最近研究
最新研究方向
在医学自然语言处理领域,Burmese-Microbiology-1K数据集的推出填补了缅甸语医学资源匮乏的空白。该数据集不仅为缅甸语大语言模型的预训练和微调提供了高质量的基础数据,还推动了基于检索增强生成(RAG)技术的医学问答系统的发展。随着全球对多语言医学数据需求的增加,该数据集的研究方向逐渐聚焦于跨语言医学知识迁移、低资源语言模型的优化以及临床决策支持系统的开发。这些研究不仅提升了缅甸语医学文本的处理能力,也为其他低资源语言的医学NLP研究提供了宝贵的参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作