five

ghadeermobasher/BC5CDR-Chemical-Disease

收藏
Hugging Face2022-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ghadeermobasher/BC5CDR-Chemical-Disease
下载链接
链接失效反馈
官方服务:
资源简介:
BC4CHEMD数据集是一个用于命名实体识别(NER)和化学-疾病关系提取的语料库。该数据集包含1500篇经过PubTator自动辅助标注的文章,并通过Jaccard一致性结果和语料库统计验证了其可靠性。数据集的结构包括`tokens`、`ner_tags`和`id`字段,数据被分为训练集、验证集和测试集。数据集的创建目的是通过提供高质量的标准,改进化学名称识别和规范化研究,并支持基于机器学习的任务开发。数据来源于PubMed的摘要,标注工作主要由有机化学研究生完成。
提供机构:
ghadeermobasher
原始信息汇总

数据集概述

数据集名称

  • 名称: BC4CHEMD
  • 别名: 无

数据集描述

  • 摘要: 该数据集包含1500篇文章,用于命名实体识别和化学-疾病关系提取。通过PubTator自动化辅助进行标注,Jaccard协议结果和语料库统计验证了语料库的可靠性。
  • 任务: 主要支持的任务为命名实体识别(named-entity-recognition)。
  • 语言: 数据集语言为英语(en)。

数据集结构

  • 数据实例: 每个实例包含tokens(词元)、ner_tags(命名实体标签)和id(标识符)。
  • 数据字段:
    • id: 句子标识符。
    • tokens: 构成句子的词元数组。
    • ner_tags: 标签数组,其中0表示未提及疾病,1表示化学实体的首个词元,2表示后续的化学词元。
  • 数据分割: 数据集分为训练集(3500实例)、验证集(3500实例)和测试集(3000实例)。

数据集创建

  • 采集与标准化: 数据集由PubMed提取的摘要组成。
  • 语言来源: 语言来源为PubMed上发表的摘要的作者。
  • 标注过程: 标注者根据指南进行文本标注,未预先分词,仅区分标题和PubMed摘要。标注在字符级别进行,不允许嵌套标注和重叠的实体提及。
  • 标注者: 标注团队主要由有机化学研究生组成,平均有3-4年的化学名称和结构标注经验。

使用考虑

  • 社会影响: 为避免标注者偏见,每对标注者随机选择,最多重叠两个集合。
  • 偏见讨论: 使用的CHEMDNER文档集需具有代表性和平衡性,以反映可能提及目标实体的文档类型。

其他信息

  • 许可证: 未知(unknown)。
  • 多语言性: 单语(monolingual)。
  • 大小类别: 1K<n<10K。
  • 源数据集: 原始数据。
  • 任务类别: 结构预测(structure-prediction)。
  • 任务ID: 命名实体识别(named-entity-recognition)。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作