jnlpba
收藏Opencsg2024-07-19 更新2025-05-03 收录
下载链接:
https://www.opencsg.com/datasets/AIWizards/jnlpba
下载链接
链接失效反馈官方服务:
资源简介:
JNLPBA数据集专注于生物医学领域的命名实体识别任务,它基于GENIA 3.02语料库,该语料库包含从MEDLINE检索的2000篇摘要,并根据化学分类进行了人工标注。数据集包含英文文本,规模在1万到10万条样本之间,其中训练集包含18546个样本,验证集包含3856个样本。数据集中,每个样本都包含句子ID、分词后的tokens以及对应的命名实体标签,标签采用BIO标注体系,标注了DNA、RNA、细胞系、细胞类型和蛋白质等生物实体。该数据集支持命名实体识别任务,但授权许可信息缺失,需要进一步补充。
创建时间:
2024-07-19



