RareDis corpus

github2021-12-31 更新2024-05-31 收录

下载链接：

https://github.com/meng-ma-biomedical-AI/the-RareDis-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

RareDis语料库是一个注释了罕见疾病及其症状和体征的语料库。

The RareDis corpus is a collection annotated with rare diseases along with their symptoms and signs.

创建时间：

2021-12-31

原始信息汇总

RareDis 数据集概述

数据集描述

名称: RareDis corpus
描述: 该数据集由NLP4Rare-cm-uc3m项目创建，专注于罕见疾病的标注，包括其症状和体征。
详细描述: 数据集的详细描述可在以下文献中找到：
- 文献标题: The RareDis corpus: a corpus annotated with rare diseases, their signs and symptoms
- 作者: Claudia Martínez-deMiguel, Isabel Segura-Bedmar, Esteban Chacón-Solano, Sara Guerrero-Aspizua
- 链接: https://arxiv.org/abs/2108.01204

数据集内容

文件夹: corpus
- 内容: 包含RareDis corpus以及用于获取数据集统计信息的脚本。
文件: PutbTator2Brat.zip
- 内容: 包含使用PubTator工具对关于皮肤罕见疾病的摘要样本进行标注的Python脚本，以及用于获取该样本统计信息的脚本。

搜集汇总

数据集介绍

构建方式

RareDis语料库的构建依托于NLP4Rare-cm-uc3m项目，其核心数据来源于对罕见疾病及其相关症状的文本标注。研究团队通过PubTator工具对皮肤罕见疾病相关的摘要样本进行标注，并开发了相应的Python脚本以支持数据的处理与统计。这一过程不仅确保了数据的科学性和准确性，还为后续的医学自然语言处理研究提供了坚实的基础。

特点

RareDis语料库的显著特点在于其专注于罕见疾病领域，涵盖了疾病名称、症状及其相关医学信息的详细标注。该数据集通过结构化方式呈现，便于研究者进行深入分析。此外，语料库还提供了统计脚本，帮助用户快速获取数据的关键指标，如疾病频率、症状分布等，为医学研究提供了多维度的数据支持。

使用方法

使用RareDis语料库时，用户可通过提供的Python脚本对数据进行预处理和统计分析。语料库文件夹中包含了完整的标注数据，用户可直接加载并进行分析。此外，PutbTator2Brat.zip中的脚本可用于将PubTator格式的标注转换为Brat格式，便于在Brat标注工具中进一步编辑和可视化。这一灵活的使用方式为医学文本挖掘和自然语言处理研究提供了便利。

背景与挑战

背景概述

RareDis语料库是由NLP4Rare-cm-uc3m项目团队创建的一个专门针对罕见疾病及其症状的标注语料库。该语料库由Claudia Martínez-deMiguel、Isabel Segura-Bedmar、Esteban Chacón-Solano和Sara Guerrero-Aspizua等研究人员于2021年发布，旨在通过自然语言处理技术，提升对罕见疾病的识别和理解能力。罕见疾病由于其低发病率和高异质性，长期以来在医学研究和临床诊断中面临诸多挑战。RareDis语料库的构建为相关领域的研究提供了宝贵的数据资源，推动了罕见疾病文本挖掘和知识发现的发展。

当前挑战

RareDis语料库的构建面临多重挑战。首先，罕见疾病的文本数据稀缺且分散，如何从有限的文献中提取高质量的信息成为一大难题。其次，罕见疾病的症状和表现复杂多样，标注过程中需要高度的医学专业知识，以确保标注的准确性和一致性。此外，罕见疾病的命名和术语标准化程度较低，增加了数据处理的复杂性。在构建过程中，研究人员还需克服数据来源的多样性和格式不统一等问题，确保语料库的完整性和可用性。这些挑战不仅影响了语料库的构建效率，也对后续的自然语言处理任务提出了更高的要求。

常用场景

经典使用场景

RareDis语料库在自然语言处理领域中被广泛用于罕见疾病的文本挖掘与分析。通过该语料库，研究人员能够深入探索罕见疾病的描述、症状及其相关医学文献，从而为疾病识别、分类和信息抽取提供强有力的数据支持。其标注的罕见疾病及其症状信息，为构建疾病知识图谱和自动化诊断系统奠定了坚实基础。

解决学术问题

RareDis语料库有效解决了罕见疾病研究中数据稀缺的问题。通过提供高质量的标注数据，该语料库支持了罕见疾病命名实体识别、关系抽取和文本分类等关键任务的研究。这不仅推动了罕见疾病领域的学术进展，还为医学信息学、生物信息学等交叉学科提供了重要的数据资源，促进了多学科协同研究的发展。

衍生相关工作

基于RareDis语料库，研究者们开发了多种先进的自然语言处理模型和工具。例如，利用该语料库训练的深度学习模型在罕见疾病实体识别任务中表现出色。此外，该语料库还催生了一系列关于罕见疾病知识图谱构建的研究工作，为罕见疾病的系统化研究和知识管理提供了重要支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集