five

RareDis corpus

收藏
DataCite Commons2025-11-12 更新2025-04-10 收录
下载链接:
https://edatos.consorciomadrono.es/citation?persistentId=doi:10.21950/DEURZF
下载链接
链接失效反馈
官方服务:
资源简介:
Para poder aplicar técnicas de PLN y aprendizaje profundo capaces de reconocer de forma automática las menciones de las enfermedades raras y sus manifestaciones clínicas en textos es imprescindible contar con un dataset (colección de textos anotados con enfermedades y síntomas / signos) que pueda ser utilizado par entrenar y evaluar los distintos modelos. Con ese objetivo, dentro del proyecto NLP4RARE-CM-UC3M, creamos el corpus RAre4Dis, formado por 1.041 textos seleccionados de una de las principales bases de datos con información sobre enfermedades raras, Orphanet (https://www.orpha.net/consor/cgi-bin/index.php). Una vez definidas una metodología y guías de anotación, se anotaron las entidades (enfermedad, enfermedad rara, síntoma, signo y anáfora). El corpus de RareDis contiene más de 5.000 enfermedades raras y unas 6.000 manifestaciones clínicas. Para garantizar la calidad del corpus, se midió el acuerdo entre anotadores, alcanzando una medida F1 de 83.5%. El dataset, que es distribuido con particiones para entrenamiento, validación y evaluación, puede ser utilizado para entrenar y evaluar enfoques basados en aprendizaje automático y dirigido al reconocimiento de este tipo de entidades en textos médicos. A continuación, se presentan algunas tablas con información del número de textos y entidades más importantes del dataset: </br> Training Validación Test Total</br> Textos 729 - 104 - 208 - 1.041</br> Oraciones 6.451 - 903 - 1.787 - 9.141</br> Tokens 135.656 - 18.492 - 37.893 - 192.041</br> </br> Training Validación Test Total</br> Disease 1.647 - 230 - 471 - 2.348</br> Rare Disease 3.608 - 525 - 1.088 - 5.221</br> Symptom 319 - 24 - 53 - 396</br> Sign 3.744 - 528 - 1.061 - 5.333</br> produces 4.106 - 556 - 1.131 - 5.793</br> increase-risk-of 169 - 22 - 54 - 245</br>
提供机构:
e-cienciaDatos
创建时间:
2024-01-09
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作