five

TDM Evaluation Dataset - chemTag

收藏
DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/dataset-chemical-extract/v1.1
下载链接
链接失效反馈
官方服务:
资源简介:
Il s'agit des données associées à la publication de Krallinger M, Rabal O, Leitner F, Vazquez M, Salgado D, Lu Z, Leaman R, Lu Y, Ji D, Lowe DM, et al. The chemdner corpus of chemicals and drugs and its annotation principles. J Cheminformatics. 2015; 7(S1):2.Description du corpusLe corpus BC4CHEMD (BioCreative IV Chemical and Drug) est un corpus de référence pour la reconnaissance d'entités chimiques. Il est composé de résumés d'articles biomédicaux issus de PubMed, annotés manuellement par des experts à l'aide d'une seule classe "Chemical". Le corpus a été publié dans le cadre de la campagne BioCreative IV et est largement utilisé pour l’entraînement et l’évaluation de systèmes de NER dans le domaine de la chimie.L’accord inter-annotateurs du corpus a été évalué sur un échantillon aléatoire de 100 résumés extraits de l’ensemble du corpus, chaque annotateur ayant réalisé l’annotation de manière indépendante. L’analyse a montré un score d’accord inter-annotateurs de 91 %.Les annotations des entités comprennent une unique étiquette NER (Chemical), respectant le format d'annotation IOB.Ce corpus a notamment servi à l'entraînement du web service chemTag mis à disposition par l'Inist-CNRS.ContenuEn moyenne, le corpus contient 8,4 mentions de substances chimiques (non distinctes) par résumé d'article PubMed.Le corpus compte 84 310 substances chimiques annotées.Il est divisé en 3 parties selon la division classique :train (données d'entraînement)devel (données de validation)test (données test)FormatLes données sont au format tsv.Extrait du fichier test :Effects Oof Odocosahexaenoic B-Chemicalacid I-Chemicaland Omethylmercury B-Chemicalon Ochild O' Os Obrain Odevelopment Odue Oto Oconsumption Oof Ofish Oby OFinnish Omother Oduring Opregnancy O: Oa Oprobabilistic Omodeling Oapproach O. OFish Ocontains Oboth Obeneficial Osubstances Oe O. Og O. Odocosahexaenoic B-Chemicalacids I-Chemicalbut Oalso Oharmful Ocompounds Oe O. Og O. Omethylmercury B-Chemical. ODonnéeshttps://github.com/cambridgeltl/MTL-Bioinformatics-2016/tree/master/data/BC4CHEMDRéférences Krallinger, M., Rabal, O., Leitner, F. et al. The CHEMDNER corpus of chemicals and drugs and its annotation principles. J Cheminform 7 (Suppl 1), S2 (2015). https://doi.org/10.1186/1758-2946-7-S1-S2Krallinger, Martin amp; Leitner, Florian amp; Rabal, Obdulia amp; Vazquez, Miguel amp; Oyarzabal, Julen amp; Valencia, Alfonso. (2015). CHEMDNER: The drugs and chemical names extraction challenge. Journal of cheminformatics. 7. S1. 10.1186/1758-2946-7-S1-S1. Krallinger M, Rabal O, Leitner F, Vazquez M, Salgado D, Lu Z, Leaman R, Lu Y, Ji D, Lowe DM, Sayle RA, Batista-Navarro RT, Rak R, Huber T, Rocktäschel T, Matos S, Campos D, Tang B, Xu H, Munkhdalai T, Ryu KH, Ramanan SV, Nathan S, Žitnik S, Bajec M, Weber L, Irmer M, Akhondi SA, Kors JA, Xu S, An X, Sikdar UK, Ekbal A, Yoshioka M, Dieb TM, Choi M, Verspoor K, Khabsa M, Giles CL, Liu H, Ravikumar KE, Lamurias A, Couto FM, Dai HJ, Tsai RT, Ata C, Can T, Usié A, Alves R, Segura-Bedmar I, Martínez P, Oyarzabal J, Valencia A. The CHEMDNER corpus of chemicals and drugs and its annotation principles. J Cheminform. 2015 Jan 19;7(Suppl 1 Text mining for chemistry and the CHEMDNER track):S2. doi: 10.1186/1758-2946-7-S1-S2. PMID: 25810773; PMCID: PMC4331692.Sun, C., Yang, Z., Wang, L., Zhang, Y., Lin, H., amp; Wang, J. (2021). Biomedical named entity recognition using BERT in the machine reading comprehension framework. Journal of Biomedical Informatics, 118, 103799.Crichton, G., Pyysalo, S., Chiu, B. et al. A neural network multi-task learning approach to biomedical named entity recognition. BMC Bioinformatics 18, 368 (2017). https://doi.org/10.1186/s12859-017-1776-8Mots-clés#TextMining #BiomedicalNER #Chemicals #NamedEntityRecognition #BiologicalDatabases #TrainingData #ComputationalLinguistics #KnowledgeRepresentation #MachineLearning #NaturalLanguageProcessing
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作