five

bigbio/genetag

收藏
Hugging Face2022-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/genetag
下载链接
链接失效反馈
官方服务:
资源简介:
命名实体识别(NER)是生物医学文献文本挖掘的重要第一步。没有标准化的测试语料库,评估生物医学NER系统的性能是不可能的。由于基因/蛋白质名称的复杂性,为基因/蛋白质名称NER标注这样的语料库是一个困难的过程。我们描述了GENETAG的构建和标注,这是一个包含20K MEDLINE®句子的基因/蛋白质NER语料库。15K GENETAG句子被用于BioCreAtIvE Task 1A竞赛。
提供机构:
bigbio
原始信息汇总

数据集概述

基本信息

  • 名称: GENETAG
  • 语言: 英语
  • 许可证: NCBI_LICENSE
  • 多语言性: 单语种
  • 主页: GENETAG
  • 是否公开: 是
  • 是否可在PubMed检索: 是

数据集描述

  • 任务: 命名实体识别(NER)
  • 描述: GENETAG是一个用于基因/蛋白质命名实体识别的标准化测试语料库,包含20,000个MEDLINE句子。其中15,000个句子被用于BioCreAtIvE Task 1A竞赛。

引用信息

@article{Tanabe2005, author = {Lorraine Tanabe and Natalie Xie and Lynne H Thom and Wayne Matten and W John Wilbur}, title = {{GENETAG}: a tagged corpus for gene/protein named entity recognition}, journal = {{BMC} Bioinformatics}, volume = {6}, year = {2005}, url = {https://doi.org/10.1186/1471-2105-6-S1-S3}, doi = {10.1186/1471-2105-6-s1-s3}, biburl = {}, bibsource = {} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作