five

MedNorm corpus

收藏
github2022-08-27 更新2024-05-31 收录
下载链接:
https://github.com/mbelousov/MedNorm-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
MedNorm语料库是一个用于跨术语医学概念规范化的语料库和嵌入,它结合了来自多个数据集的实例,并提供了对MedDRA和SNOMED-CT术语的一致同时映射。

The MedNorm corpus is a resource designed for the normalization of cross-terminology medical concepts, integrating instances from multiple datasets and providing consistent simultaneous mappings to both MedDRA and SNOMED-CT terminologies.
创建时间:
2019-06-03
原始信息汇总

数据集概述

数据集名称

  • MedNorm Corpus

数据集目的

  • 结合多个数据集,提供一致的同时映射到MedDRA和SNOMED-CT术语学。
  • 生成语料库图和跨术语概念嵌入。

数据集内容

  • 包含来自多个数据集的实例,具体包括:
    • CADEC
    • TwADR-L
    • TwiMed-PubMed
    • TwiMed-Twitter
    • SMM4H2017-train
    • SMM4H2017-test
    • TAC2017_ADR

数据处理步骤

  1. 数据集合并

    • 使用dataset.py combine命令合并数据集,生成mednorm_raw.tsv文件。
    • 合并结果:30246行。
  2. 构建初始语料库图

    • 使用dataset.py build_graph命令构建图表示。
  3. 构建概念嵌入模型

    • 使用dataset.py build_embeddings命令生成嵌入模型。
  4. 识别潜在的标注错误

    • 使用dataset.py unrelated_annotationsdataset.py ambiguous_tokens命令分析并识别错误。
  5. 纠正标注错误

    • 使用dataset.py human_correct命令进行人工校正。
  6. 构建最终图表示

    • 使用dataset.py build_graph命令构建校正后的图表示。
  7. 生成TSV数据集

    • 使用dataset.py tsv命令生成mednorm_mapped_draft.tsv文件。
    • 结果:27979行。
  8. 解决短语重复

    • 使用dataset.py resolve_dups命令处理重复短语。
    • 处理结果:6667行更改。
  9. 单标签简化

    • 使用dataset.py reduce命令简化至单标签。
    • 简化结果:2080个单标签meddra代码,2100个单标签sct_ids。
  10. 过滤

    • 使用dataset.py filter命令进行数据过滤。

数据集访问

引用信息

  • 引用文献:Belousov, Maksim, et al. "MedNorm: A Corpus and Embeddings for Cross-terminology Medical Concept Normalisation." Proceedings of the Fourth Social Media Mining for Health Applications (# SMM4H) Workshop & Shared Task, 2019, pp. 31-39.
搜集汇总
数据集介绍
main_image_url
构建方式
MedNorm corpus的构建过程经过精心设计,首先通过整合来自CADEC、TwADR-L、TwiMed-PubMed等多个数据集的实例,生成一个初步的原始数据文件。随后,利用这些数据构建初始的语料库图表示,并通过深度学习方法生成跨术语概念嵌入模型。在识别并纠正潜在的注释错误后,进一步构建最终的语料库图表示,并通过一系列步骤如去重、过滤和标签简化,最终形成一个高质量的、跨术语的医学概念标准化数据集。
使用方法
使用MedNorm corpus时,用户可以通过提供的Python脚本进行数据集的整合、图构建、嵌入模型生成等操作。具体步骤包括数据集的合并、图表示的构建、嵌入模型的训练、错误识别与纠正、最终数据集的生成等。每个步骤都有详细的命令行接口,用户可以根据需要调整参数,生成符合自己研究需求的数据集。
背景与挑战
背景概述
MedNorm corpus是由Belousov、Dixon和Nenadic等研究人员于2019年创建的,旨在解决跨术语医学概念标准化的问题。该数据集通过整合多个来源的数据,提供了对MedDRA和SNOMED-CT术语的一致性映射,并生成了跨术语概念嵌入和语料库图。这一研究在医学信息学领域具有重要意义,特别是在处理多源异构数据时,能够有效提升医学概念的标准化和一致性,为后续的医学文本分析和知识图谱构建提供了坚实的基础。
当前挑战
MedNorm corpus在构建过程中面临多项挑战。首先,整合来自不同数据集的数据需要解决数据格式和内容的不一致性,确保数据质量。其次,构建语料库图和概念嵌入模型时,需处理复杂的术语映射和语义关系,确保模型的准确性和鲁棒性。此外,识别和纠正潜在的注释错误也是一个重要挑战,这直接影响到数据集的可靠性和应用效果。最后,解决短语重复和减少标签数量的问题,进一步提升了数据集的实用性和效率。
常用场景
经典使用场景
在医学领域,MedNorm corpus 数据集的经典使用场景主要体现在跨术语医学概念的标准化过程中。该数据集通过整合多个来源的数据,提供了对MedDRA和SNOMED-CT术语的一致性映射,从而支持医学文本的自动标注和术语标准化。这种标准化对于提高医学信息系统的互操作性和数据质量至关重要。
解决学术问题
MedNorm corpus 数据集解决了医学领域中跨术语概念标准化这一关键学术问题。通过提供一致的术语映射和生成跨术语概念嵌入,该数据集显著提升了医学文本处理和信息提取的准确性。这对于推动医学信息学的发展,特别是在术语标准化和数据整合方面,具有重要的学术意义和实际应用价值。
实际应用
在实际应用中,MedNorm corpus 数据集被广泛用于医学信息系统的开发和优化。例如,在电子健康记录(EHR)系统中,该数据集可以帮助实现不同医疗术语之间的自动转换,从而提高数据的可读性和一致性。此外,它还支持药物不良反应监测和临床试验数据分析等应用,显著提升了医疗数据处理的效率和准确性。
数据集最近研究
最新研究方向
在医学信息学领域,MedNorm corpus数据集的研究方向主要集中在跨术语医学概念的标准化与映射。该数据集通过整合多个来源的数据,提供了对MedDRA和SNOMED-CT术语的一致性映射,并生成了跨术语概念的嵌入模型。这一研究不仅推动了医学术语标准化的发展,还为医学文本分析、药物不良反应监测等前沿应用提供了重要支持。通过构建语料库图和概念嵌入,研究者能够更精确地识别和纠正标注错误,提升数据质量,从而在临床决策支持系统和医学知识图谱构建中发挥关键作用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作