RareDis corpus

Name: RareDis corpus
Creator: e-cienciaDatos
Published: 2025-11-12 09:26:00
License: 暂无描述

DataCite Commons2025-11-12 更新2025-04-10 收录

下载链接：

https://edatos.consorciomadrono.es/citation?persistentId=doi:10.21950/DEURZF

下载链接

链接失效反馈

官方服务：

资源简介：

Para poder aplicar técnicas de PLN y aprendizaje profundo capaces de reconocer de forma automática las menciones de las enfermedades raras y sus manifestaciones clínicas en textos es imprescindible contar con un dataset (colección de textos anotados con enfermedades y síntomas / signos) que pueda ser utilizado par entrenar y evaluar los distintos modelos. Con ese objetivo, dentro del proyecto NLP4RARE-CM-UC3M, creamos el corpus RAre4Dis, formado por 1.041 textos seleccionados de una de las principales bases de datos con información sobre enfermedades raras, Orphanet (https://www.orpha.net/consor/cgi-bin/index.php). Una vez definidas una metodología y guías de anotación, se anotaron las entidades (enfermedad, enfermedad rara, síntoma, signo y anáfora). El corpus de RareDis contiene más de 5.000 enfermedades raras y unas 6.000 manifestaciones clínicas. Para garantizar la calidad del corpus, se midió el acuerdo entre anotadores, alcanzando una medida F1 de 83.5%. El dataset, que es distribuido con particiones para entrenamiento, validación y evaluación, puede ser utilizado para entrenar y evaluar enfoques basados en aprendizaje automático y dirigido al reconocimiento de este tipo de entidades en textos médicos. A continuación, se presentan algunas tablas con información del número de textos y entidades más importantes del dataset: Training Validación Test Total Textos 729 - 104 - 208 - 1.041 Oraciones 6.451 - 903 - 1.787 - 9.141 Tokens 135.656 - 18.492 - 37.893 - 192.041 Training Validación Test Total Disease 1.647 - 230 - 471 - 2.348 Rare Disease 3.608 - 525 - 1.088 - 5.221 Symptom 319 - 24 - 53 - 396 Sign 3.744 - 528 - 1.061 - 5.333 produces 4.106 - 556 - 1.131 - 5.793 increase-risk-of 169 - 22 - 54 - 245

提供机构：

e-cienciaDatos

创建时间：

2024-01-09

5,000+

优质数据集

54 个

任务类型

进入经典数据集