RareDis corpus

Name: RareDis corpus
Creator: 马德里卡洛斯三世大学生物工程系组织工程与再生医学组
Published: 2021-12-09 19:11:11
License: 暂无描述

arXiv2021-12-09 更新2024-06-21 收录

下载链接：

https://github.com/isegura/NLP4RARE-CM-UC3M

下载链接

链接失效反馈

官方服务：

资源简介：

RareDis数据集是由马德里卡洛斯三世大学生物工程系组织工程与再生医学组创建的，专注于罕见疾病及其症状和体征的标注。该数据集包含1041篇文本，涵盖超过5000种罕见疾病和近6000种临床表现。数据集的创建过程涉及自动预标注和人工标注，确保了高质量的标注结果。RareDis数据集主要用于训练和测试自然语言处理模型，以帮助提高罕见疾病的诊断速度和治疗选择，从而改善患者的生活质量。

The RareDis dataset was developed by the Tissue Engineering and Regenerative Medicine Group of the Department of Bioengineering at Universidad Carlos III de Madrid, focusing on the annotation of rare diseases, their symptoms and clinical signs. This dataset includes 1041 texts, covering over 5000 rare diseases and nearly 6000 clinical manifestations. The construction of the dataset involves both automatic pre-annotation and manual annotation, ensuring high-quality annotated results. The RareDis dataset is primarily used for training and testing natural language processing (NLP) models to help improve the speed of rare disease diagnosis and treatment selection, thereby enhancing patients' quality of life.

提供机构：

马德里卡洛斯三世大学生物工程系组织工程与再生医学组

创建时间：

2021-08-03

搜集汇总

数据集介绍

构建方式

在罕见病信息匮乏的背景下，RareDis语料库的构建采用了系统化的多阶段流程。研究团队首先从美国国家罕见病组织（NORD）的数据库中，通过网页抓取技术获取了1,041篇描述罕见病的结构化英文文本。为提升标注效率，团队基于疾病本体、罕见病本体和症状本体，利用词典匹配方法进行了实体预标注。随后，四位具备生物医学和皮肤病学背景的专家，依据迭代制定的详细标注指南，使用BRAT工具对实体与关系进行了两轮独立的人工标注与校对。最终通过测量标注者间一致性来评估语料库质量，确保了其作为高质量金标准语料库的可靠性。

使用方法

RareDis语料库为生物医学自然语言处理研究提供了宝贵的基准资源。研究者可将其按7:1:2的比例划分为训练集、验证集和测试集，用于开发和评估针对罕见病领域的命名实体识别与关系抽取模型。语料库中丰富的实体与关系标注，特别是对体征、不连续实体及跨句指代关系的标注，为训练能够处理复杂语言现象的先进模型提供了数据支持。此外，该语料库及其公开的标注指南，可作为扩展标注其他生物医学文本的参考标准，推动从海量文献中自动化抽取罕见病知识，以辅助临床诊断和治疗策略研究。

背景与挑战

背景概述

RareDis corpus 是由西班牙卡洛斯三世大学等机构的研究团队于2021年创建的生物医学文本语料库，专注于罕见疾病及其临床表征的标注。该语料库旨在应对全球超过6000种罕见疾病诊断延迟的严峻挑战，通过自然语言处理技术从非结构化文本中提取关键信息，以辅助临床决策和科学研究。其核心研究问题在于构建高质量的标注资源，以支持命名实体识别和关系抽取任务，从而填补罕见疾病领域标注数据稀缺的空白，对生物医学信息学与临床实践具有重要的推动作用。

当前挑战

该数据集主要解决罕见疾病信息抽取领域的挑战，包括从复杂文本中准确识别疾病、症状、体征等实体，并提取它们之间的语义关系，如“导致”或“增加风险”。在构建过程中，研究团队面临多重挑战：一是标注对象的高度专业性，要求区分体征与症状、处理嵌套与不连续实体；二是术语的多样性与模糊性，如通用术语与专业术语的界定、同义词与缩写识别；三是标注一致性维护，尤其在体征标注中因描述短语的复杂性导致标注者间一致率较低。这些挑战凸显了罕见疾病文本语义理解的固有难度。

常用场景

经典使用场景

在罕见病信息提取领域，RareDis语料库作为黄金标准资源，其最经典的应用场景在于训练和评估自然语言处理模型，特别是命名实体识别与关系抽取任务。该语料库包含超过五千种罕见疾病及近六千项临床表征的精细标注，为机器学习算法提供了丰富的监督信号，使得模型能够从非结构化文本中自动识别疾病实体、症状、体征及其间的因果关系。这一场景直接支撑了生物医学文本挖掘的前沿研究，为从海量文献中系统化抽取罕见病知识奠定了数据基础。

解决学术问题

该语料库有效解决了罕见病研究领域信息稀疏与诊断延迟的核心学术难题。通过提供大规模、高质量的人工标注数据，它使得基于机器学习的自动化信息抽取成为可能，从而辅助研究人员从分散的科研文献、临床报告等文本中整合知识。其标注体系涵盖了疾病、症状、体征实体及“导致”、“增加风险”等多种关系，特别引入了指代消解标注，支持跨句子的关系抽取，这直接针对了罕见病临床表现复杂、描述分散的挑战，为构建系统化的罕见病知识图谱提供了关键数据支撑。

实际应用

在实际应用层面，基于RareDis语料库训练的自然语言处理系统，能够嵌入临床决策支持或医学信息平台，辅助医生进行罕见病诊断。系统可快速扫描电子健康记录或医学文献，提取患者症状与潜在罕见病的关联，从而缩短平均长达数年的诊断延迟。此外，抽取的结构化知识可用于丰富罕见病数据库，为患者社区提供更精准的信息服务，并助力流行病学研究与药物重定位分析，最终提升罕见病患者的诊疗效率与生活质量。

数据集最近研究