tner/bionlp2004
收藏Hugging Face2022-08-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tner/bionlp2004
下载链接
链接失效反馈官方服务:
资源简介:
BioNLP2004数据集是一个用于命名实体识别(NER)任务的数据集,主要应用于生物化学领域。该数据集包含训练集和测试集,验证集是从训练集中随机抽取一半的测试实例创建的。数据集中包含五种实体类型:DNA、protein、cell_type、cell_line和RNA。数据集的标签ID映射提供了详细的标签与ID的对应关系。数据集的划分情况为:训练集16619条,验证集1927条,测试集3856条。
提供机构:
tner
原始信息汇总
数据集概述
数据集描述
- 名称: BioNLP2004
- 领域: Biochemical
- 实体数量: 5
- 实体类型:
DNA,protein,cell_type,cell_line,RNA - 数据结构: 包含训练、验证和测试集
- 数据分割:
名称 训练 验证 测试 bionlp2004 16619 1927 3856
数据集结构
数据实例
一个train示例:
{ tags: [0, 0, 0, 0, 3, 0, 9, 10, 0, 0, 0, 0, 0, 7, 8, 0, 3, 0, 0, 9, 10, 10, 0, 0], tokens: [In, the, presence, of, Epo, ,, c-myb, mRNA, declined, and, 20, %, of, K562, cells, synthesized, Hb, regardless, of, antisense, myb, RNA, expression, .] }
标签ID
标签与ID映射关系: python { "O": 0, "B-DNA": 1, "I-DNA": 2, "B-protein": 3, "I-protein": 4, "B-cell_type": 5, "I-cell_type": 6, "B-cell_line": 7, "I-cell_line": 8, "B-RNA": 9, "I-RNA": 10 }



