five

MeDAL

收藏
arXiv2020-12-28 更新2024-06-21 收录
下载链接:
https://github.com/BruceWen120/medal
下载链接
链接失效反馈
官方服务:
资源简介:
MeDAL是由麦吉尔大学创建的一个大型医学文本数据集,专注于医学缩写消歧,旨在支持医学领域自然语言理解的预训练。该数据集包含14,393,619篇文章,平均每篇文章包含3个缩写。数据集的创建过程利用了PubMed摘要,通过逆向替换技术生成样本,无需人工标注。MeDAL数据集的应用领域广泛,主要用于提高模型在医学文本处理中的性能,特别是在缩写消歧任务上,有助于提升模型在下游医学任务中的表现和收敛速度。
提供机构:
麦吉尔大学
创建时间:
2020-12-28
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
MeDAL是一个医学缩写消歧数据集,专为自然语言理解预训练设计,发布于2020年,由McGill-NLP团队创建。该数据集可从Hugging Face、Kaggle和Zenodo等多个平台获取,并提供了预训练模型(如ELECTRA)和下游任务(如MIMIC中的临床预测)的应用指南,适用于医学领域的自然语言处理研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作