five

TDM Evaluation Dataset - chemTag

收藏
DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/dataset-chemical-extract/v1.1
下载链接
链接失效反馈
官方服务:
资源简介:
Il s'agit des données associées à la publication de Krallinger M, Rabal O, Leitner F, Vazquez M, Salgado D, Lu Z, Leaman R, Lu Y, Ji D, Lowe DM, et al. The chemdner corpus of chemicals and drugs and its annotation principles. J Cheminformatics. 2015; 7(S1):2.Description du corpusLe corpus BC4CHEMD (BioCreative IV Chemical and Drug) est un corpus de référence pour la reconnaissance d'entités chimiques. Il est composé de résumés d'articles biomédicaux issus de PubMed, annotés manuellement par des experts à l'aide d'une seule classe "Chemical". Le corpus a été publié dans le cadre de la campagne BioCreative IV et est largement utilisé pour l’entraînement et l’évaluation de systèmes de NER dans le domaine de la chimie.L’accord inter-annotateurs du corpus a été évalué sur un échantillon aléatoire de 100 résumés extraits de l’ensemble du corpus, chaque annotateur ayant réalisé l’annotation de manière indépendante. L’analyse a montré un score d’accord inter-annotateurs de 91 %.Les annotations des entités comprennent une unique étiquette NER (Chemical), respectant le format d'annotation IOB.Ce corpus a notamment servi à l'entraînement du web service chemTag mis à disposition par l'Inist-CNRS.ContenuEn moyenne, le corpus contient 8,4 mentions de substances chimiques (non distinctes) par résumé d'article PubMed.Le corpus compte 84 310 substances chimiques annotées.Il est divisé en 3 parties selon la division classique :train (données d'entraînement)devel (données de validation)test (données test)FormatLes données sont au format tsv.Extrait du fichier test :Effects Oof Odocosahexaenoic B-Chemicalacid I-Chemicaland Omethylmercury B-Chemicalon Ochild O' Os Obrain Odevelopment Odue Oto Oconsumption Oof Ofish Oby OFinnish Omother Oduring Opregnancy O: Oa Oprobabilistic Omodeling Oapproach O. OFish Ocontains Oboth Obeneficial Osubstances Oe O. Og O. Odocosahexaenoic B-Chemicalacids I-Chemicalbut Oalso Oharmful Ocompounds Oe O. Og O. Omethylmercury B-Chemical. ODonnéeshttps://github.com/cambridgeltl/MTL-Bioinformatics-2016/tree/master/data/BC4CHEMDRéférences Krallinger, M., Rabal, O., Leitner, F. et al. The CHEMDNER corpus of chemicals and drugs and its annotation principles. J Cheminform 7 (Suppl 1), S2 (2015). https://doi.org/10.1186/1758-2946-7-S1-S2Krallinger, Martin amp; Leitner, Florian amp; Rabal, Obdulia amp; Vazquez, Miguel amp; Oyarzabal, Julen amp; Valencia, Alfonso. (2015). CHEMDNER: The drugs and chemical names extraction challenge. Journal of cheminformatics. 7. S1. 10.1186/1758-2946-7-S1-S1. Krallinger M, Rabal O, Leitner F, Vazquez M, Salgado D, Lu Z, Leaman R, Lu Y, Ji D, Lowe DM, Sayle RA, Batista-Navarro RT, Rak R, Huber T, Rocktäschel T, Matos S, Campos D, Tang B, Xu H, Munkhdalai T, Ryu KH, Ramanan SV, Nathan S, Žitnik S, Bajec M, Weber L, Irmer M, Akhondi SA, Kors JA, Xu S, An X, Sikdar UK, Ekbal A, Yoshioka M, Dieb TM, Choi M, Verspoor K, Khabsa M, Giles CL, Liu H, Ravikumar KE, Lamurias A, Couto FM, Dai HJ, Tsai RT, Ata C, Can T, Usié A, Alves R, Segura-Bedmar I, Martínez P, Oyarzabal J, Valencia A. The CHEMDNER corpus of chemicals and drugs and its annotation principles. J Cheminform. 2015 Jan 19;7(Suppl 1 Text mining for chemistry and the CHEMDNER track):S2. doi: 10.1186/1758-2946-7-S1-S2. PMID: 25810773; PMCID: PMC4331692.Sun, C., Yang, Z., Wang, L., Zhang, Y., Lin, H., amp; Wang, J. (2021). Biomedical named entity recognition using BERT in the machine reading comprehension framework. Journal of Biomedical Informatics, 118, 103799.Crichton, G., Pyysalo, S., Chiu, B. et al. A neural network multi-task learning approach to biomedical named entity recognition. BMC Bioinformatics 18, 368 (2017). https://doi.org/10.1186/s12859-017-1776-8Mots-clés#TextMining #BiomedicalNER #Chemicals #NamedEntityRecognition #BiologicalDatabases #TrainingData #ComputationalLinguistics #KnowledgeRepresentation #MachineLearning #NaturalLanguageProcessing

本数据集关联于Krallinger M、Rabal O、Leitner F、Vazquez M、Salgado D、Lu Z、Leaman R、Lu Y、Ji D、Lowe DM等人的发表成果:*The chemdner corpus of chemicals and drugs and its annotation principles*,刊载于*J Cheminformatics*,2015年;7(S1):2。 ## 语料库说明 BC4CHEMD (BioCreative IV Chemical and Drug) 是用于化学实体识别的基准语料库。该语料库源自PubMed数据库中的生物医学文献摘要,由专家以单一类别「Chemical(化学实体)」完成手动标注,其发布依托BioCreative IV竞赛框架,目前已被广泛应用于化学领域命名实体识别(Named Entity Recognition, NER)系统的训练与评估。 该语料库的标注者间一致性通过从全语料库中随机抽取的100篇摘要样本开展评估,每位标注者独立完成标注工作,最终分析得到的标注者间一致性得分为91%。 实体标注采用单一NER标签「Chemical」,并遵循IOB标注格式。该语料库曾被用于训练Inist-CNRS推出的chemTag Web服务。 ## 语料库内容 平均而言,每篇PubMed文献摘要中包含8.4处未去重的化学物质提及。该语料库共计标注了84310种化学物质,按照标准划分方式分为三部分: - train(训练数据集) - devel(验证数据集) - test(测试数据集) ## 数据格式 数据集采用TSV(Tab-Separated Values,制表符分隔值)格式。以下为测试集文件片段示例: Effects O of O docosahexaenoic B-Chemical acid I-Chemical and O methylmercury B-Chemical on O child O ' O s O brain O development O due O to O consumption O of O fish O by O Finnish O mother O during O pregnancy O : O a O probabilistic O modeling O approach O . O Fish O contains O both O beneficial O substances O e O . O g O . O docosahexaenoic B-Chemical acids I-Chemical but O also O harmful O compounds O e O . O g O . O methylmercury B-Chemical . O ## 数据获取地址 https://github.com/cambridgeltl/MTL-Bioinformatics-2016/tree/master/data/BC4CHEMD ## 参考文献 1. Krallinger M, Rabal O, Leitner F, et al. The CHEMDNER corpus of chemicals and drugs and its annotation principles. *J Cheminform*, 2015, 7(Suppl 1): S2. 2. Krallinger M, Rabal O, Leitner F, et al. CHEMDNER: The drugs and chemical names extraction challenge. *Journal of cheminformatics*, 2015, 7(Suppl 1): S1. DOI: 10.1186/1758-2946-7-S1-S1 3. Krallinger M, Rabal O, Leitner F, et al. The CHEMDNER corpus of chemicals and drugs and its annotation principles. *J Cheminform*, 2015 Jan 19;7(Suppl 1 Text mining for chemistry and the CHEMDNER track):S2. DOI: 10.1186/1758-2946-7-S1-S2. PMID: 25810773; PMCID: PMC4331692. 4. Sun C, Yang Z, Wang L, Zhang Y, Lin H, Wang J. Biomedical named entity recognition using BERT in the machine reading comprehension framework. *Journal of Biomedical Informatics*, 2021, 118: 103799. 5. Crichton G, Pyysalo S, Chiu B, et al. A neural network multi-task learning approach to biomedical named entity recognition. *BMC Bioinformatics*, 2017, 18: 368. DOI: 10.1186/s12859-017-1776-8 ## 关键词 #TextMining #BiomedicalNER #Chemicals #NamedEntityRecognition #BiologicalDatabases #TrainingData #ComputationalLinguistics #KnowledgeRepresentation #MachineLearning #NaturalLanguageProcessing
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作