RareDis corpus
收藏DataCite Commons2025-11-12 更新2025-04-10 收录
下载链接:
https://edatos.consorciomadrono.es/citation?persistentId=doi:10.21950/DEURZF
下载链接
链接失效反馈官方服务:
资源简介:
Para poder aplicar técnicas de PLN y aprendizaje profundo capaces de reconocer de forma automática las menciones de las enfermedades raras y sus manifestaciones clínicas en textos es imprescindible contar con un dataset (colección de textos anotados con enfermedades y síntomas / signos) que pueda ser utilizado par entrenar y evaluar los distintos modelos. Con ese objetivo, dentro del proyecto NLP4RARE-CM-UC3M, creamos el corpus RAre4Dis, formado por 1.041 textos seleccionados de una de las principales bases de datos con información sobre enfermedades raras, Orphanet (https://www.orpha.net/consor/cgi-bin/index.php). Una vez definidas una metodología y guías de anotación, se anotaron las entidades (enfermedad, enfermedad rara, síntoma, signo y anáfora). El corpus de RareDis contiene más de 5.000 enfermedades raras y unas 6.000 manifestaciones clínicas. Para garantizar la calidad del corpus, se midió el acuerdo entre anotadores, alcanzando una medida F1 de 83.5%. El dataset, que es distribuido con particiones para entrenamiento, validación y evaluación, puede ser utilizado para entrenar y evaluar enfoques basados en aprendizaje automático y dirigido al reconocimiento de este tipo de entidades en textos médicos. A continuación, se presentan algunas tablas con información del número de textos y entidades más importantes del dataset:
</br>
Training Validación Test Total</br>
Textos 729 - 104 - 208 - 1.041</br>
Oraciones 6.451 - 903 - 1.787 - 9.141</br>
Tokens 135.656 - 18.492 - 37.893 - 192.041</br>
</br>
Training Validación Test Total</br>
Disease 1.647 - 230 - 471 - 2.348</br>
Rare Disease 3.608 - 525 - 1.088 - 5.221</br>
Symptom 319 - 24 - 53 - 396</br>
Sign 3.744 - 528 - 1.061 - 5.333</br>
produces 4.106 - 556 - 1.131 - 5.793</br>
increase-risk-of 169 - 22 - 54 - 245</br>
提供机构:
e-cienciaDatos
创建时间:
2024-01-09



