TDM Evaluation Dataset - chemTag
收藏DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/dataset-chemical-extract/v1.1
下载链接
链接失效反馈官方服务:
资源简介:
Il s'agit des données associées à la publication de Krallinger M, Rabal O, Leitner F, Vazquez M, Salgado D, Lu Z, Leaman R,
Lu Y, Ji D, Lowe DM, et al. The chemdner corpus of chemicals and drugs
and its annotation principles. J Cheminformatics. 2015; 7(S1):2.Description du corpusLe corpus BC4CHEMD (BioCreative IV Chemical and Drug) est un corpus de référence pour la reconnaissance d'entités chimiques. Il est composé de résumés d'articles biomédicaux issus de PubMed, annotés manuellement par des experts à l'aide d'une seule classe "Chemical". Le corpus a été publié dans le cadre de la campagne BioCreative IV et est largement utilisé pour l’entraînement et l’évaluation de systèmes de NER dans le domaine de la chimie.L’accord inter-annotateurs du corpus a été évalué sur un échantillon aléatoire de 100 résumés extraits de l’ensemble du corpus, chaque annotateur ayant réalisé l’annotation de manière indépendante. L’analyse a montré un score d’accord inter-annotateurs de 91 %.Les annotations des entités comprennent une unique étiquette NER (Chemical), respectant le format d'annotation IOB.Ce corpus a notamment servi à l'entraînement du web service chemTag mis à disposition par l'Inist-CNRS.ContenuEn moyenne, le corpus contient 8,4 mentions de substances chimiques (non distinctes) par résumé d'article PubMed.Le corpus compte 84 310 substances chimiques annotées.Il est divisé en 3 parties selon la division classique :train (données d'entraînement)devel (données de validation)test (données test)FormatLes données sont au format tsv.Extrait du fichier test :Effects Oof Odocosahexaenoic B-Chemicalacid I-Chemicaland Omethylmercury B-Chemicalon Ochild O' Os Obrain Odevelopment Odue Oto Oconsumption Oof Ofish Oby OFinnish Omother Oduring Opregnancy O: Oa Oprobabilistic Omodeling Oapproach O. OFish Ocontains Oboth Obeneficial Osubstances Oe O. Og O. Odocosahexaenoic B-Chemicalacids I-Chemicalbut Oalso Oharmful Ocompounds Oe O. Og O. Omethylmercury B-Chemical. ODonnéeshttps://github.com/cambridgeltl/MTL-Bioinformatics-2016/tree/master/data/BC4CHEMDRéférences Krallinger, M., Rabal, O., Leitner, F. et al. The CHEMDNER corpus of chemicals and drugs and its annotation principles.
J Cheminform 7
(Suppl 1), S2 (2015). https://doi.org/10.1186/1758-2946-7-S1-S2Krallinger, Martin amp; Leitner, Florian amp; Rabal, Obdulia amp; Vazquez, Miguel amp; Oyarzabal, Julen amp; Valencia, Alfonso. (2015). CHEMDNER: The drugs and chemical names extraction challenge. Journal of cheminformatics. 7. S1. 10.1186/1758-2946-7-S1-S1. Krallinger M, Rabal O,
Leitner F, Vazquez M, Salgado D, Lu Z, Leaman R, Lu Y, Ji D, Lowe DM,
Sayle RA, Batista-Navarro RT, Rak R, Huber T, Rocktäschel T, Matos S,
Campos D, Tang B, Xu H, Munkhdalai T, Ryu KH, Ramanan SV, Nathan S,
Žitnik S, Bajec M, Weber L, Irmer M, Akhondi SA, Kors JA, Xu S, An X,
Sikdar UK, Ekbal A, Yoshioka M, Dieb TM, Choi M, Verspoor K, Khabsa M,
Giles CL, Liu H, Ravikumar KE, Lamurias A, Couto FM, Dai HJ, Tsai RT,
Ata C, Can T, Usié A, Alves R, Segura-Bedmar I, Martínez P, Oyarzabal J,
Valencia A. The CHEMDNER corpus of chemicals and drugs and its
annotation principles. J Cheminform. 2015 Jan 19;7(Suppl 1 Text mining
for chemistry and the CHEMDNER track):S2. doi:
10.1186/1758-2946-7-S1-S2. PMID: 25810773; PMCID: PMC4331692.Sun, C., Yang, Z., Wang, L., Zhang, Y., Lin, H., amp; Wang, J. (2021).
Biomedical named entity recognition using BERT in the machine reading
comprehension framework. Journal of Biomedical Informatics, 118, 103799.Crichton, G., Pyysalo, S., Chiu, B. et al. A neural network multi-task learning approach to biomedical named entity recognition.
BMC Bioinformatics 18, 368 (2017). https://doi.org/10.1186/s12859-017-1776-8Mots-clés#TextMining #BiomedicalNER
#Chemicals #NamedEntityRecognition #BiologicalDatabases #TrainingData #ComputationalLinguistics #KnowledgeRepresentation #MachineLearning #NaturalLanguageProcessing
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11



