bigbio/pharmaconer
收藏Hugging Face2022-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/pharmaconer
下载链接
链接失效反馈官方服务:
资源简介:
PharmaCoNER数据集是一个专门用于药物、化合物和蛋白质命名实体识别(NER)任务的数据集,由西班牙临床案例语料库(SPACCC)中的临床案例研究组成,这些案例来自SciELO的西班牙医学出版物。数据集包含396,988个单词和1,000个临床案例,分为训练集、开发集和测试集。数据集还包括两个子任务:NER偏移和实体类型分类,以及概念索引。
提供机构:
bigbio
原始信息汇总
PharmaCoNER数据集概述
基本信息
- 语言: 西班牙语
- 许可证: CC-BY-4.0
- 多语言性: 单语种
- 任务: 命名实体识别, 文本分类
数据集描述
- 来源: 西班牙临床案例语料库(SPACCC),源自SciELO电子图书馆
- 标注: 由药物化学专家进行,包含4种实体类型:NORMALIZABLES, NO_NORMALIZABLES, PROTEINAS, UNCLEAR
- 规模: 包含396,988字和1,000个临床案例,分为训练集(500案例)、开发集(250案例)和测试集(250案例)
子任务
- NER偏移和实体类型分类: 要求系统输出与黄金标准标注的实体标签的起始和结束位置以及实体标注类型完全匹配。
- 概念索引: 需要为每个文档生成一组唯一的SNOMED概念标识符,预测与手动标注的化学化合物和药物物质的概念ID进行比较。
联系方式
- 主页: https://temu.bsc.es/pharmaconer/
- 邮箱: encargo-pln-life@bsc.es



