ghadeermobasher/BC5CDR-Chemical-Disease

Name: ghadeermobasher/BC5CDR-Chemical-Disease
Creator: ghadeermobasher
Published: 2022-01-25 10:31:51
License: 暂无描述

Hugging Face2022-01-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ghadeermobasher/BC5CDR-Chemical-Disease

下载链接

链接失效反馈

官方服务：

资源简介：

BC4CHEMD数据集是一个用于命名实体识别（NER）和化学-疾病关系提取的语料库。该数据集包含1500篇经过PubTator自动辅助标注的文章，并通过Jaccard一致性结果和语料库统计验证了其可靠性。数据集的结构包括`tokens`、`ner_tags`和`id`字段，数据被分为训练集、验证集和测试集。数据集的创建目的是通过提供高质量的标准，改进化学名称识别和规范化研究，并支持基于机器学习的任务开发。数据来源于PubMed的摘要，标注工作主要由有机化学研究生完成。

提供机构：

ghadeermobasher

原始信息汇总

数据集概述

数据集名称

名称: BC4CHEMD
别名: 无

数据集描述

摘要: 该数据集包含1500篇文章，用于命名实体识别和化学-疾病关系提取。通过PubTator自动化辅助进行标注，Jaccard协议结果和语料库统计验证了语料库的可靠性。
任务: 主要支持的任务为命名实体识别（named-entity-recognition）。
语言: 数据集语言为英语（en）。

数据集结构

数据实例: 每个实例包含tokens（词元）、ner_tags（命名实体标签）和id（标识符）。
数据字段:
- id: 句子标识符。
- tokens: 构成句子的词元数组。
- ner_tags: 标签数组，其中0表示未提及疾病，1表示化学实体的首个词元，2表示后续的化学词元。
数据分割: 数据集分为训练集（3500实例）、验证集（3500实例）和测试集（3000实例）。

数据集创建

采集与标准化: 数据集由PubMed提取的摘要组成。
语言来源: 语言来源为PubMed上发表的摘要的作者。
标注过程: 标注者根据指南进行文本标注，未预先分词，仅区分标题和PubMed摘要。标注在字符级别进行，不允许嵌套标注和重叠的实体提及。
标注者: 标注团队主要由有机化学研究生组成，平均有3-4年的化学名称和结构标注经验。

使用考虑

社会影响: 为避免标注者偏见，每对标注者随机选择，最多重叠两个集合。
偏见讨论: 使用的CHEMDNER文档集需具有代表性和平衡性，以反映可能提及目标实体的文档类型。

其他信息

许可证: 未知（unknown）。
多语言性: 单语（monolingual）。
大小类别: 1K<n<10K。
源数据集: 原始数据。
任务类别: 结构预测（structure-prediction）。
任务ID: 命名实体识别（named-entity-recognition）。

5,000+

优质数据集

54 个

任务类型

进入经典数据集