MedNorm corpus

github2022-08-27 更新2024-05-31 收录

下载链接：

https://github.com/mbelousov/MedNorm-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

MedNorm语料库是一个用于跨术语医学概念规范化的语料库和嵌入，它结合了来自多个数据集的实例，并提供了对MedDRA和SNOMED-CT术语的一致同时映射。

The MedNorm corpus is a resource designed for the normalization of cross-terminology medical concepts, integrating instances from multiple datasets and providing consistent simultaneous mappings to both MedDRA and SNOMED-CT terminologies.

创建时间：

2019-06-03

原始信息汇总

数据集概述

数据集名称

MedNorm Corpus

数据集目的

结合多个数据集，提供一致的同时映射到MedDRA和SNOMED-CT术语学。
生成语料库图和跨术语概念嵌入。

数据集内容

包含来自多个数据集的实例，具体包括：
- CADEC
- TwADR-L
- TwiMed-PubMed
- TwiMed-Twitter
- SMM4H2017-train
- SMM4H2017-test
- TAC2017_ADR

数据处理步骤

数据集合并
- 使用dataset.py combine命令合并数据集，生成mednorm_raw.tsv文件。
- 合并结果：30246行。
构建初始语料库图
- 使用dataset.py build_graph命令构建图表示。
构建概念嵌入模型
- 使用dataset.py build_embeddings命令生成嵌入模型。
识别潜在的标注错误
- 使用dataset.py unrelated_annotations和dataset.py ambiguous_tokens命令分析并识别错误。
纠正标注错误
- 使用dataset.py human_correct命令进行人工校正。
构建最终图表示
- 使用dataset.py build_graph命令构建校正后的图表示。
生成TSV数据集
- 使用dataset.py tsv命令生成mednorm_mapped_draft.tsv文件。
- 结果：27979行。
解决短语重复
- 使用dataset.py resolve_dups命令处理重复短语。
- 处理结果：6667行更改。
单标签简化
- 使用dataset.py reduce命令简化至单标签。
- 简化结果：2080个单标签meddra代码，2100个单标签sct_ids。
过滤
- 使用dataset.py filter命令进行数据过滤。

数据集访问

语料库和嵌入可通过以下链接获取：https://doi.org/10.17632/b9x7xxb9sz.1

引用信息

引用文献：Belousov, Maksim, et al. "MedNorm: A Corpus and Embeddings for Cross-terminology Medical Concept Normalisation." Proceedings of the Fourth Social Media Mining for Health Applications (# SMM4H) Workshop & Shared Task, 2019, pp. 31-39.

搜集汇总

数据集介绍

构建方式

MedNorm corpus的构建过程经过精心设计，首先通过整合来自CADEC、TwADR-L、TwiMed-PubMed等多个数据集的实例，生成一个初步的原始数据文件。随后，利用这些数据构建初始的语料库图表示，并通过深度学习方法生成跨术语概念嵌入模型。在识别并纠正潜在的注释错误后，进一步构建最终的语料库图表示，并通过一系列步骤如去重、过滤和标签简化，最终形成一个高质量的、跨术语的医学概念标准化数据集。

使用方法

使用MedNorm corpus时，用户可以通过提供的Python脚本进行数据集的整合、图构建、嵌入模型生成等操作。具体步骤包括数据集的合并、图表示的构建、嵌入模型的训练、错误识别与纠正、最终数据集的生成等。每个步骤都有详细的命令行接口，用户可以根据需要调整参数，生成符合自己研究需求的数据集。

背景与挑战

背景概述

MedNorm corpus是由Belousov、Dixon和Nenadic等研究人员于2019年创建的，旨在解决跨术语医学概念标准化的问题。该数据集通过整合多个来源的数据，提供了对MedDRA和SNOMED-CT术语的一致性映射，并生成了跨术语概念嵌入和语料库图。这一研究在医学信息学领域具有重要意义，特别是在处理多源异构数据时，能够有效提升医学概念的标准化和一致性，为后续的医学文本分析和知识图谱构建提供了坚实的基础。

当前挑战

MedNorm corpus在构建过程中面临多项挑战。首先，整合来自不同数据集的数据需要解决数据格式和内容的不一致性，确保数据质量。其次，构建语料库图和概念嵌入模型时，需处理复杂的术语映射和语义关系，确保模型的准确性和鲁棒性。此外，识别和纠正潜在的注释错误也是一个重要挑战，这直接影响到数据集的可靠性和应用效果。最后，解决短语重复和减少标签数量的问题，进一步提升了数据集的实用性和效率。

常用场景

经典使用场景

在医学领域，MedNorm corpus 数据集的经典使用场景主要体现在跨术语医学概念的标准化过程中。该数据集通过整合多个来源的数据，提供了对MedDRA和SNOMED-CT术语的一致性映射，从而支持医学文本的自动标注和术语标准化。这种标准化对于提高医学信息系统的互操作性和数据质量至关重要。

解决学术问题

MedNorm corpus 数据集解决了医学领域中跨术语概念标准化这一关键学术问题。通过提供一致的术语映射和生成跨术语概念嵌入，该数据集显著提升了医学文本处理和信息提取的准确性。这对于推动医学信息学的发展，特别是在术语标准化和数据整合方面，具有重要的学术意义和实际应用价值。

实际应用

在实际应用中，MedNorm corpus 数据集被广泛用于医学信息系统的开发和优化。例如，在电子健康记录（EHR）系统中，该数据集可以帮助实现不同医疗术语之间的自动转换，从而提高数据的可读性和一致性。此外，它还支持药物不良反应监测和临床试验数据分析等应用，显著提升了医疗数据处理的效率和准确性。

数据集最近研究