TDM Evaluation Dataset - diseaseTag
收藏DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/dataset-disease-extract/v2.1
下载链接
链接失效反馈官方服务:
资源简介:
Il s'agit des données associées à la publication de Li et al., 2016, "BioCreative V CDR task corpus: a resource for
chemical disease relation extraction", Database, Volume 2016, 2016, baw068, https://doi.org/10.1093/database/baw068Article disponible ici : https://academic.oup.com/database/article/doi/10.1093/database/baw068/2630414Description du corpusLe corpus BC5CDR-disease (BioCreative V Chemical Disease Relation) résulte de la division du corpus BC5CDR original où seules les mentions de maladies sont annotées (le corpus BC5CDR contient normalement des annotations de maladies, de substances chimiques et de leurs interactions.)C'est un vaste corpus de textes annotés manuellement, comptant 12850 maladies annotées, mentionnées dans 1500 résumés d'articles PubMed.Les annotations des entités comprennent une simple étiquette NER (Disease), respectant le format d'annotation IOB.(Là où le BC5CDR original comprend en plus à la fois les segments de texte mentionnés et les identifiants de concepts normalisés, en utilisant le MeSH comme vocabulaire contrôlé.)Afin de garantir l'exactitude, les entités ont d'abord été annotées indépendamment par deux annotateurs, puis une annotation commune a été effectuée : le score moyen de l'accord inter-annotateurs (IAA) est de 87,49 % pour les maladies dans l'ensemble de test, selon le coefficient de similarité de Jaccard.Ce corpus a notamment servi à l'entraînement du web-service diseaseTag mis à disposition par l'Inist-CNRS.ContenuEn moyenne, le corpus contient 8,57 mentions de maladies (non distinctes) par résumé d'article PubMed.Le corpus compte 12850 maladies annotées.Il est divisé en 3 parties selon la division classique :train (données d'entraînement)devel (données de validation)test (données test)FormatLes données sont au format conllExemple :2 O- Ooxacalcitriol Osuppresses Osecondary B-Diseasehyperparathyroidism I-Diseasewithout Oinducing Olow B-Diseasebone I-Diseaseturnover I-Diseasein Odogs Owith Orenal B-Diseasefailure I-Disease. OBACKGROUND O: OCalcitriol Otherapy Osuppresses Oserum Olevels Oof Oparathyroid Ohormone O( OPTH O) Oin Opatients Owith Orenal B-Diseasefailure I-Diseasebut Ohas Oseveral Odrawbacks O, Oincluding Ohypercalcemia B-Diseaseand O/ Oor Omarked Osuppression B-Diseaseof I-Diseasebone I-Diseaseturnover I-Disease, Owhich Omay Olead Oto Oadynamic B-Diseasebone I-Diseasedisease I-Disease. OMots-clés#Biomedical NER #Diseases #Named Entity #Recognition #Biological Databases #Training data #Computational Linguistics #Knowledge Representation and
Machine Learning #Natural Language Processing
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11



