myMediCon
收藏github2025-02-10 更新2025-02-11 收录
下载链接:
https://github.com/ye-kyaw-thu/myMediCon
下载链接
链接失效反馈官方服务:
资源简介:
myMediCon是一个针对缅甸语言的自然语言处理研究和开发所需的医学领域资源的贡献,由LU Lab., 缅甸提供。该语料库基于医生和患者之间的对话,从英文书籍改编而来,并翻译成缅甸语。
myMediCon, provided by LU Lab., Myanmar, is a contribution of medical domain resources for natural language processing (NLP) research and development focused on the Burmese language. This corpus is adapted from English books, translated into Burmese, and grounded in dialogues between doctors and patients.
创建时间:
2025-02-09
原始信息汇总
myMediCon 数据集概述
数据集简介
- 名称:myMediCon
- 类型:医疗对话语料库
- 语言:缅甸语
- 用途:用于文本和语音的缅甸语自然语言处理(NLP)研究和开发
文本语料库
- 基于医生和患者的对话
- 来源:英语书籍“Samson Handbook of PLAB 2 and Clinical Assessment”的缅甸语翻译
- 版权处理:使用Quillbot软件对英语句子进行改写,避免版权问题
- 数据组成:
data.my:缅甸语文本数据,共14592行paraphrase.en:改写后的英语文本数据,共14592行data.th:使用Google Translate翻译成泰语的文本数据,共14592行
- 版本:0.8(发布日期:2025年2月9日)
主要贡献者
- 研究生:Mya Ei San(泰国Thammasat大学SIIT)
- 论文标题:Machine Translation for Low-Resource Thai-English-Myanmar Language Pairs
- 监督者:Ye Kyaw Thu
语音语料库
- 状态:进行中
- 相关论文:MyMediCon: End-to-End Burmese Automatic Speech Recognition for Medical Conversations
许可
- 创意共享署名-非商业-相同共享4.0国际许可证(CC BY-NC-SA 4.0)
- 许可详情:Creative Commons License
联系方式
- 邮箱:ykt.nlp.ai[at]gmail.com
引用
- 论文引用:Mya Ei San, Ye Kyaw Thu, Thepchai Supnithi and Sasiporn Usanavasin, "Improving Neural Machine Translation for Low-resource English-Myanmar-Thai Language Pairs with SwitchOut Data Augmentation Algorithm", In Proceedings of the 17th International Joint Symposium on Artificial Intelligence and Natural Language Processing (iSAI-NLP 2022), Nov 5 to 7, 2022, Chiang Mai, Thailand, pp. 1-6. [Paper]
参考文献
- [1]. C. SAMSON, "Samson Handbook of Plab and Clinical Assessment", DR SAMSON CHISI, 2015.
搜集汇总
数据集介绍

构建方式
针对缅甸语言自然语言处理领域中医疗对话资源的匮乏,LU Lab. 研发了myMediCon数据集。该数据集首先基于《Samson Handbook of PLAB 2 and Clinical Assessment》一书的英文对话,手动翻译成缅甸文,并通过Quillbot软件进行同义改写以规避版权问题,同时使用Google Translate将英文翻译为泰文,形成了合成数据。
特点
myMediCon数据集涵盖了医患对话的文本和语音资料,为缅甸语言提供了宝贵的医疗领域NLP资源。它包含了合成后的英文、泰文和缅甸文数据,可用于支持低资源语言对的机器翻译研究。此外,该数据集遵循Creative Commons Attribution-NonCommercial-Share Alike 4.0国际许可,保证了数据的开放性和共享性。
使用方法
用户可以通过访问提供的GitHub页面下载myMediCon数据集。在使用该数据集进行研究时,建议遵循所提供的引用格式,并在研究成果中致谢。此外,对于有兴趣进一步探索语音数据集的用户,可以关注相关论文以获取进展更新。
背景与挑战
背景概述
myMediCon数据集是由缅甸LU Lab.团队开发的,旨在为缅甸语言的自然语言处理(NLP)研究和开发提供医学领域的资源。该数据集包含了医生与患者之间的对话文本,并计划包含语音数据。其文本基础源自于Dr. Samson Chissi所著的《Samson Handbook of PLAB 2 and Clinical Assessment》一书,内容经人工翻译和软件辅助改写,以规避版权问题,并同步生成泰语数据。该数据集的创建,对于资源匮乏的缅甸语言NLP领域具有重要意义,为相关研究提供了基础资源,并在一定程度上推动了跨语言机器翻译技术的发展。
当前挑战
myMediCon数据集面临的挑战主要包括:如何确保翻译和改写的质量,以保持数据的真实性和准确性;如何在保护版权的同时,扩充数据集规模以提高其研究价值;以及如何将文本数据转化为高质量的语音数据。此外,该数据集在构建和应用过程中,还需克服低资源语言的技术瓶颈,如自动语音识别(ASR)的性能优化等,这些都是当前和未来研究的重点。
常用场景
经典使用场景
在自然语言处理领域,特别是在低资源语言的医疗对话处理研究中,myMediCon数据集提供了宝贵的文本与语音资源。该数据集的经典使用场景主要在于构建和优化医疗对话系统,包括但不限于机器翻译、情感分析和信息提取等任务。
解决学术问题
myMediCon数据集的构建解决了低资源语言,尤其是缅甸语在医疗领域自然语言处理研究中缺乏高质量数据集的问题。它为研究人员提供了一个可靠的资源,以促进跨语言医疗信息交流和处理的研究,对于提升医疗翻译准确性和开发自动化医疗对话系统具有重要意义。
衍生相关工作
基于myMediCon数据集,已经衍生出了一系列相关工作,如自动语音识别的研究,以及利用该数据集进行机器翻译性能提升的研究。这些工作不仅推动了缅甸语自然语言处理技术的发展,也为其他低资源语言的处理提供了借鉴和参考。
以上内容由遇见数据集搜集并总结生成



