five

tner/bionlp2004

收藏
Hugging Face2022-08-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tner/bionlp2004
下载链接
链接失效反馈
官方服务:
资源简介:
BioNLP2004数据集是一个用于命名实体识别(NER)任务的数据集,主要应用于生物化学领域。该数据集包含训练集和测试集,验证集是从训练集中随机抽取一半的测试实例创建的。数据集中包含五种实体类型:DNA、protein、cell_type、cell_line和RNA。数据集的标签ID映射提供了详细的标签与ID的对应关系。数据集的划分情况为:训练集16619条,验证集1927条,测试集3856条。
提供机构:
tner
原始信息汇总

数据集概述

数据集描述

  • 名称: BioNLP2004
  • 领域: Biochemical
  • 实体数量: 5
  • 实体类型: DNA, protein, cell_type, cell_line, RNA
  • 数据结构: 包含训练、验证和测试集
  • 数据分割:
    名称 训练 验证 测试
    bionlp2004 16619 1927 3856

数据集结构

数据实例

一个train示例:

{ tags: [0, 0, 0, 0, 3, 0, 9, 10, 0, 0, 0, 0, 0, 7, 8, 0, 3, 0, 0, 9, 10, 10, 0, 0], tokens: [In, the, presence, of, Epo, ,, c-myb, mRNA, declined, and, 20, %, of, K562, cells, synthesized, Hb, regardless, of, antisense, myb, RNA, expression, .] }

标签ID

标签与ID映射关系: python { "O": 0, "B-DNA": 1, "I-DNA": 2, "B-protein": 3, "I-protein": 4, "B-cell_type": 5, "I-cell_type": 6, "B-cell_line": 7, "I-cell_line": 8, "B-RNA": 9, "I-RNA": 10 }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作