bigbio/nlmchem

Name: bigbio/nlmchem
Creator: bigbio
Published: 2022-12-22 15:46:07
License: 暂无描述

Hugging Face2022-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/nlmchem

下载链接

链接失效反馈

官方服务：

资源简介：

NLM-Chem语料库由150篇来自PubMed Central开放获取数据集的全文学术文章组成，涵盖67种不同的化学期刊，旨在覆盖生物医学文献中化学名称使用的广泛分布。文章的选择标准是那些对人类注释最有价值的文章，即富含生物实体且当前最先进的命名实体识别系统在生物实体识别上存在分歧的文章。数据集支持的任务包括命名实体识别（NER）、命名实体消歧（NED）和文本分类（TXTCLASS）。

The NLM-Chem Corpus consists of 150 full-length academic articles sourced from the PubMed Central Open Access Dataset, covering 67 distinct chemistry journals. It is designed to cover the broad distribution of chemical name usage in biomedical literature. The article selection criteria prioritize articles that are most valuable for human annotation, specifically those rich in biological entities and where state-of-the-art named entity recognition (NER) systems exhibit disagreements on biological entity recognition. Tasks supported by this dataset include named entity recognition (NER), named entity disambiguation (NED), and text classification (TXTCLASS).

提供机构：

bigbio

原始信息汇总

数据集概述

基本信息

语言: 英语
许可证: CC0-1.0
多语言性: 单语种
PubMed可用性: 是
公开性: 是

数据集内容

包含文献数量: 150篇
来源期刊: 67种化学期刊
文献来源: PubMed Central Open Access
数据集目的: 覆盖生物医学文献中化学名称的广泛使用，特别选择富含生物实体且现有最先进的命名实体识别系统在生物实体识别上存在分歧的文章。

任务类型

命名实体识别 (NER)
命名实体消歧 (NED)
文本分类 (TXTCLASS)

引用信息

@Article{islamaj2021nlm, title={NLM-Chem, a new resource for chemical entity recognition in PubMed full text literature}, author={Islamaj, Rezarta and Leaman, Robert and Kim, Sun and Kwon, Dongseop and Wei, Chih-Hsuan and Comeau, Donald C and Peng, Yifan and Cissel, David and Coss, Cathleen and Fisher, Carol and others}, journal={Scientific Data}, volume={8}, number={1}, pages={1--12}, year={2021}, publisher={Nature Publishing Group} }

搜集汇总

数据集介绍

构建方式

在生物医学文献信息抽取领域，化学实体识别是基础且关键的任务。NLM-Chem数据集的构建源于对高质量标注数据的需求，其语料选自PubMed Central开放获取数据库中的150篇全文文献。这些文献覆盖了67种不同的化学期刊，旨在广泛代表生物医学文献中化学名称的实际使用分布。筛选过程尤为审慎，优先选取那些富含生物实体、且现有前沿命名实体识别系统在实体识别上存在分歧的文献，以确保人工标注能够提供最大价值，从而构建出一个具有挑战性和代表性的基准数据集。

使用方法

对于致力于生物医学文本挖掘的研究者而言，NLM-Chem数据集提供了标准化的评估平台。用户可通过HuggingFace的`bigbio`框架便捷加载该数据集，直接用于模型训练与性能评测。在具体应用中，研究者可基于其标注开展端到端的化学实体识别模型开发，或利用其链接信息进行实体消歧研究，将文本中的化学提及映射至标准数据库。该数据集遵循CC0许可协议，支持广泛的学术与商业用途，其结构化格式也便于集成到现有的机器学习工作流中，加速相关算法的迭代与创新。

背景与挑战

背景概述

在生物医学文献挖掘领域，化学实体识别是连接文本信息与结构化知识的关键环节。NLM-Chem数据集由美国国家医学图书馆等机构的研究团队于2021年创建，其核心目标在于从PubMed Central开放获取的全文文献中，系统性地标注化学实体，以支持命名实体识别、消歧与文本分类任务。该数据集精选了150篇涵盖67种化学期刊的全文文章，旨在反映化学名称在生物医学文献中的真实分布，为算法开发提供了高质量、具有挑战性的标注资源，显著推动了化学信息抽取技术的进步。

当前挑战

化学实体识别面临诸多固有挑战，包括化学命名的高度多样性、同义词与缩写形式的普遍存在，以及化学结构与文本描述之间的语义鸿沟。在构建NLM-Chem数据集过程中，研究团队需处理全文文献的复杂结构，确保标注在丰富生物实体的文章中进行，同时应对当前领先命名实体识别系统在化学实体边界与类别上的分歧，这要求标注过程兼具领域专业知识与严谨的标注一致性控制，以生成可靠的标准答案。

常用场景

经典使用场景

在生物医学信息学领域，化学实体识别是文本挖掘的基础任务之一。NLM-Chem数据集以其从PubMed Central开放获取文献中精选的150篇全文文章，覆盖了67种化学期刊，为研究者提供了一个富含化学名称标注的语料库。该数据集最经典的使用场景在于训练和评估命名实体识别模型，特别是在处理生物医学文献中复杂多变的化学术语时，能够有效提升模型对化学实体的边界划分和类型分类的准确性。

解决学术问题

NLM-Chem数据集主要解决了生物医学文献中化学实体识别与消歧的学术研究问题。通过提供高质量的人工标注数据，它帮助克服了现有命名实体识别系统在化学名称上存在的分歧与局限性，促进了算法在实体链接和标准化方面的进展。该数据集的意义在于推动了化学信息抽取领域的标准化评估，为构建更精准的生物医学知识图谱奠定了基础，对药物发现和化学生物学研究产生了深远影响。

实际应用

在实际应用中，NLM-Chem数据集被广泛集成到生物医学文本挖掘工具和系统中，支持药物研发、毒性预测和化学安全评估等任务。例如，在药物发现过程中，研究人员利用该数据集训练的模型自动从海量文献中提取化学化合物信息，加速候选药物的识别与验证。此外，它还在公共卫生监测和化学风险评估中发挥作用，帮助分析化学物质与疾病之间的关联。

数据集最近研究