awacke1/MedNorm2SnomedCT2UMLS
收藏Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/awacke1/MedNorm2SnomedCT2UMLS
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
---
MedNorm2SnomedCT2UMLS
Paper on Mednorm and harmonisation: https://aclanthology.org/W19-3204.pdf
The medical concept normalisation task aims to map textual descriptions to standard terminologies such as SNOMED-CT or MedDRA.
Existing publicly available datasets annotated using different terminologies cannot be simply merged and utilised, and therefore become less
valuable when developing machine learningbased concept normalisation systems.
To address that, we designed a data harmonisation pipeline and engineered a corpus of 27,979 textual descriptions simultaneously mapped to both MedDRA and SNOMED-CT,
sourced from five publicly available datasets across biomedical and social media domains.
提供机构:
awacke1
原始信息汇总
数据集概述
数据集名称
MedNorm2SnomedCT2UMLS
数据集目的
该数据集旨在解决医疗概念规范化任务,即将文本描述映射到如SNOMED-CT或MedDRA等标准术语系统。
数据集特点
- 设计了一个数据协调流程,以解决不同术语系统标注的公开数据集难以合并使用的问题。
- 构建了一个包含27,979个文本描述的语料库,这些描述同时映射到MedDRA和SNOMED-CT。
- 数据来源于五个公开数据集,跨越生物医学和社交媒体领域。
数据集规模
- 包含27,979个文本描述。
数据集来源
- 五个公开数据集,涉及生物医学和社交媒体领域。
数据集使用许可
- MIT许可。



