five

DrugSemantics Gold Standard

收藏
doi.org2025-01-15 收录
下载链接:
http://doi.org/10.17632/fwc7jrc5jr.1
下载链接
链接失效反馈
官方服务:
资源简介:
DrugSemantics gold standard consists of 5 Summaries of Product Characteristics (SPC) written in Spanish. SPCs were retrieved from Medicines Online Information Center - CIMA - that belongs to the Spanish Agency for Medicines and Health Products - AEMPS. This corpus is annotated with 10 Named Entities (NE) related to pharmacotherapeutic care, namely: Chemical Composition, Disease, Drug, Excipient, Food, Medicament, Pharmaceutical Form, Route, Therapeutic Action and Unit of Measurement. It contains 2241 ENs, 780 sentences and 226,729 tokens. The zip file is organized as follows: Each SPC is in a separte folder containing one xml file that contains the annotated documents in Gate Standoff format. DrugSemantics was designed to be used for developing and testesting of Spanish NE recogniton tools in the pharmacotherapeutic domain.

DrugSemantics 金标准数据集由5篇西班牙语撰写的药品说明书概要(SPC)组成。这些SPC来自隶属于西班牙药品和健康产品管理局(AEMPS)的药品在线信息中心(CIMA)。 本语料库标注了与药物治疗护理相关的10个命名实体(NE),包括:化学成分、疾病、药物、辅料、食品、药品、药理形式、给药途径、治疗作用和计量单位。其中包含2241个实体名称(EN)、780个句子和226,729个标记。 ZIP文件组织结构如下:每个SPC在一个独立的文件夹中,包含一个xml文件,其中包含用Gate Standoff格式标注的文档。 DrugSemantics旨在用于开发和测试西班牙语药物治疗领域命名实体识别工具。
提供机构:
Mendeley Data
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作