ghadeermobasher/BC5CDR-Chemical-Disease
收藏Hugging Face2022-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ghadeermobasher/BC5CDR-Chemical-Disease
下载链接
链接失效反馈官方服务:
资源简介:
BC4CHEMD数据集是一个用于命名实体识别(NER)和化学-疾病关系提取的语料库。该数据集包含1500篇经过PubTator自动辅助标注的文章,并通过Jaccard一致性结果和语料库统计验证了其可靠性。数据集的结构包括`tokens`、`ner_tags`和`id`字段,数据被分为训练集、验证集和测试集。数据集的创建目的是通过提供高质量的标准,改进化学名称识别和规范化研究,并支持基于机器学习的任务开发。数据来源于PubMed的摘要,标注工作主要由有机化学研究生完成。
提供机构:
ghadeermobasher
原始信息汇总
数据集概述
数据集名称
- 名称: BC4CHEMD
- 别名: 无
数据集描述
- 摘要: 该数据集包含1500篇文章,用于命名实体识别和化学-疾病关系提取。通过PubTator自动化辅助进行标注,Jaccard协议结果和语料库统计验证了语料库的可靠性。
- 任务: 主要支持的任务为命名实体识别(named-entity-recognition)。
- 语言: 数据集语言为英语(en)。
数据集结构
- 数据实例: 每个实例包含
tokens(词元)、ner_tags(命名实体标签)和id(标识符)。 - 数据字段:
id: 句子标识符。tokens: 构成句子的词元数组。ner_tags: 标签数组,其中0表示未提及疾病,1表示化学实体的首个词元,2表示后续的化学词元。
- 数据分割: 数据集分为训练集(3500实例)、验证集(3500实例)和测试集(3000实例)。
数据集创建
- 采集与标准化: 数据集由PubMed提取的摘要组成。
- 语言来源: 语言来源为PubMed上发表的摘要的作者。
- 标注过程: 标注者根据指南进行文本标注,未预先分词,仅区分标题和PubMed摘要。标注在字符级别进行,不允许嵌套标注和重叠的实体提及。
- 标注者: 标注团队主要由有机化学研究生组成,平均有3-4年的化学名称和结构标注经验。
使用考虑
- 社会影响: 为避免标注者偏见,每对标注者随机选择,最多重叠两个集合。
- 偏见讨论: 使用的CHEMDNER文档集需具有代表性和平衡性,以反映可能提及目标实体的文档类型。
其他信息
- 许可证: 未知(unknown)。
- 多语言性: 单语(monolingual)。
- 大小类别: 1K<n<10K。
- 源数据集: 原始数据。
- 任务类别: 结构预测(structure-prediction)。
- 任务ID: 命名实体识别(named-entity-recognition)。



