Medical Case Report Corpus

github2024-01-07 更新2024-05-31 收录

下载链接：

https://github.com/adahealth/medical_case_report_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库提供了一个包含医疗案例报告的语料库，其中包含实体和关系注释，格式为BioC。该语料库源自PubMed Central的开放存取库，注释了案例、条件、发现、因素和否定修饰符等医疗实体，并在适用的情况下注释了这些实体之间的关系。这是首个以英文提供给科学界的此类语料库，支持通过命名实体识别、关系抽取和（句子/段落）相关性检测等任务自动从案例报告中提取信息。

This repository provides a corpus of medical case reports, annotated with entities and relationships in BioC format. The corpus is derived from the open-access repository of PubMed Central, and it annotates medical entities such as cases, conditions, findings, factors, and negation modifiers, along with the relationships between these entities where applicable. This is the first such corpus made available to the scientific community in English, supporting the automatic extraction of information from case reports through tasks such as named entity recognition, relation extraction, and (sentence/paragraph) relevance detection.

创建时间：

2020-01-16

原始信息汇总

Medical Case Report Corpus 概述

数据集描述

本数据集包含来自PubMed Central开放访问库的医学案例报告，其中包含实体和关系标注，格式为BioC。数据集首次向科学界提供此类英语资源，支持通过命名实体识别、关系抽取和（句子/段落）相关性检测等任务进行自动信息抽取的初步研究。此外，数据集还提供了四个用于检测医学实体的强基线系统。

数据集格式

数据集以pickled BioC Json集合的形式发布，可通过多种BioC库进行处理。集合中的每个文档包含一个案例报告文本段落，以及一个标注列表和一个关系列表。每个标注包含其在文本中的位置，示例格式如下：

id: 25412 {origin: manual, key: UUID(ace40f78-9327-4ad9-a2f9-d4ef3ab127b2), type: AdaEntity, entityType: finding} locations: 4299:23 text: ventricular tachycardia

数据集统计

数据集的统计信息通过一张图片总结，详细信息请参考提供的链接。

引用信息

使用本数据集时，请根据提供的论文进行引用。数据集使用Creative Common许可证。

搜集汇总

数据集介绍

构建方式

Medical Case Report Corpus数据集的构建基于PubMed Central开放获取图书馆中的医学病例报告，通过人工标注的方式对病例、条件、发现、因素及否定修饰符等医学实体进行标注，并在适用情况下标注这些实体之间的关系。该数据集以BioC格式发布，采用pickled BioC Json集合的形式，包含多个文档，每个文档包含一个病例报告的文本段落及其注释列表和关系列表。

特点

该数据集的特点在于其首次提供了英文医学病例报告中的实体和关系标注，涵盖了病例、条件、发现、因素及否定修饰符等多种医学实体。数据集以BioC格式发布，便于使用现有的BioC库进行处理。此外，该数据集还提供了四个强大的基线系统，用于检测医学实体，为自动信息提取任务如命名实体识别、关系提取和句子/段落相关性检测提供了基础。

使用方法

使用Medical Case Report Corpus时，用户可以通过现有的BioC库处理pickled BioC Json格式的数据集。数据集中的每个文档包含一个病例报告的文本段落及其注释列表和关系列表，用户可以根据需要进行命名实体识别、关系提取和句子/段落相关性检测等任务。此外，用户可以参考提供的基线系统进行医学实体检测，并依据Creative Common Licenses使用该数据集，同时需引用相关论文。

背景与挑战

背景概述

Medical Case Report Corpus数据集由Ada Health团队创建，旨在为医学领域的信息提取研究提供支持。该数据集基于PubMed Central的开放获取文献，首次在英文医学案例报告中标注了病例、条件、发现、因素及否定修饰符等实体及其关系。其发布标志着医学自然语言处理领域的一个重要里程碑，为命名实体识别、关系抽取及文本相关性检测等任务提供了基础数据。该数据集的创建时间为2019年，其核心研究问题在于如何从非结构化的医学案例报告中自动提取关键信息，以辅助临床决策和医学研究。

当前挑战

Medical Case Report Corpus数据集在构建和应用过程中面临多重挑战。首先，医学案例报告的语言复杂且专业，涉及大量医学术语和上下文依赖关系，这对实体标注和关系抽取的准确性提出了极高要求。其次，数据集的构建依赖于人工标注，而医学领域的专业知识需求使得标注过程耗时且成本高昂。此外，医学案例报告的多样性和非结构化特性增加了数据处理的难度，尤其是在跨领域和跨语言的应用场景中。最后，尽管该数据集为医学信息提取提供了基础，但其规模和覆盖范围仍需进一步扩展，以支持更广泛的研究和应用需求。

常用场景

经典使用场景

Medical Case Report Corpus 数据集在医学信息提取领域具有广泛的应用。该数据集通过标注病例报告中的医学实体及其关系，为研究者提供了丰富的语料资源。其经典使用场景包括命名实体识别、关系抽取以及句子或段落的相关性检测。这些任务在自动化医学信息处理中至关重要，能够帮助研究者从大量非结构化文本中提取有价值的信息。

实际应用

在实际应用中，Medical Case Report Corpus 数据集被广泛用于开发智能医疗系统。例如，基于该数据集训练的模型可以自动分析病例报告，提取患者的病史、诊断结果和治疗方案等信息。这些信息可以辅助医生进行诊断，提高医疗服务的质量和效率。此外，该数据集还为医学研究提供了宝贵的数据资源，支持大规模的医学数据分析。

衍生相关工作

该数据集衍生了许多经典的研究工作，特别是在医学信息提取和自然语言处理领域。基于该数据集，研究者开发了多种先进的算法和模型，用于命名实体识别、关系抽取和文本分类等任务。这些工作不仅推动了医学文本分析技术的发展，还为其他领域的文本处理研究提供了借鉴和参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集