未提及具体数据集名称

Name: 未提及具体数据集名称
Creator: EPSRC Future Manufacturing Research Hub for Continuous Manufacturing and Advanced Crystallisation (CMAC), University of Strathclyde, Technology and Innovation Centre, 99 George Street, Glasgow G1 1RD, UK
Published: 2025-04-29 17:56:23
License: 暂无描述

arXiv2025-04-29 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2504.20598v1

下载链接

链接失效反馈

官方服务：

资源简介：

本文未提及具体数据集名称和访问地址，但描述了一种从专利中提取药品制造信息的方法。该方法包括两个主要模型：1）一个用于选择包含制造数据文本片段的方法，2）一个命名实体识别系统，用于提取操作、材料和过程条件的信息。数据集包含208,596个药品相关的专利，通过文本聚类技术、潜在狄利克雷分配（LDA）和k-Means聚类算法识别与制造相关的文本部分。命名实体识别（NER）模型采用深度神经网络，在训练集上取得了84.2%的f1分数。该数据集主要用于解决药品制造领域的信息提取问题，旨在促进新药发现和改善治疗方案。

This paper does not specify the dataset's name and access URL, but presents a method for extracting pharmaceutical manufacturing information from patents. The method incorporates two core models: 1) a model for selecting text fragments containing manufacturing data, and 2) a named entity recognition (NER) system for extracting information on operations, materials and process conditions. The dataset comprises 208,596 pharmaceutical-related patents, and the manufacturing-related text segments are identified via text clustering techniques, Latent Dirichlet Allocation (LDA) and k-Means clustering algorithms. The named entity recognition (NER) model adopts deep neural networks and achieves an F1 score of 84.2% on the training set. This dataset is primarily utilized to address information extraction challenges in the pharmaceutical manufacturing field, aiming to promote new drug discovery and improve treatment regimens.

提供机构：

EPSRC Future Manufacturing Research Hub for Continuous Manufacturing and Advanced Crystallisation (CMAC), University of Strathclyde, Technology and Innovation Centre, 99 George Street, Glasgow G1 1RD, UK

创建时间：

2025-04-29

搜集汇总

数据集介绍

构建方式

该数据集构建聚焦于从制药专利中提取制造信息，采用自然语言处理（NLP）技术。首先，通过专利数据库检索和筛选，收集了208,596项与制药相关的专利。随后，利用潜在狄利克雷分配（LDA）和k-Means聚类技术，对文本片段进行无监督分类，以识别包含制造信息的段落。最后，通过深度神经网络构建命名实体识别（NER）系统，提取操作、材料和工艺条件等关键信息。整个构建过程结合了文本预处理、主题建模和聚类分析，确保了数据的准确性和可用性。

特点

该数据集的特点在于其专注于制药制造领域，特别是小分子的初级和次级制造信息。数据集涵盖了丰富的实体类型，包括API、辅料、溶剂、操作和条件等，为制药信息提取提供了全面的标注。通过LDA和k-Means的结合，数据集能够高效分类和筛选相关文本片段，NER模型的F1分数达到84.2%，表现出较高的识别精度。此外，数据集的构建基于专利文本，具有较高的权威性和覆盖范围，为制药制造的信息提取和机器学习应用提供了可靠的基础。

使用方法

该数据集的使用方法主要包括三个步骤：首先，通过预训练的LDA和k-Means模型筛选出包含制造信息的文本片段；其次，利用深度神经网络（BiLSTM-CRF架构）对筛选出的文本进行命名实体识别，提取关键信息；最后，对提取的数据进行后处理，以提高信息的准确性和一致性。用户可以根据具体需求，调整模型的参数或结合其他NLP工具，进一步优化信息提取的效果。数据集适用于制药制造的信息挖掘、知识图谱构建和机器学习模型训练等多个场景。

背景与挑战

背景概述

近年来，医药制造领域积累了丰富多样的数据，然而这些信息大多以非结构化形式存在，难以直接应用于机器学习。自然语言处理（NLP）技术在生物医学和化学领域的信息提取中已展现出显著成效，推动了药物研发和治疗的进步。然而，针对药物制剂的二次制造信息提取仍存在明显空白。为此，研究人员Diego Alvarado-Maldonado等人开发了一套NLP工具，旨在从专利文献中提取初级和次级制造信息。该研究采用了无监督学习方法（LDA和k-Means聚类）识别相关文本片段，并利用深度神经网络构建命名实体识别（NER）系统，以提取操作、材料和工艺条件等关键信息。这一工作为医药制造领域的信息提取提供了新的技术路径。

当前挑战

该数据集面临的主要挑战包括：1) 领域问题挑战：专利文献通常描述模糊，缺乏明确的结构化部分，且内容涵盖广泛，从临床研究到制造工艺等多个方面，这使得准确提取特定制造信息变得复杂；2) 构建过程挑战：在模型开发中，研究人员需处理文本长度差异大、主题模型解释性有限等问题。此外，NER模型需识别多种实体类型（如材料、操作、条件等），但某些实体（如包装材料）在训练数据中出现频率较低，影响了模型识别效果。同时，如何区分初级和次级制造信息，以及处理语义相近实体的混淆（如反应物与辅料），也是构建过程中的关键难点。

常用场景

经典使用场景

该数据集在药物制造信息提取领域具有广泛的应用，特别是在自然语言处理（NLP）工具的开发中。通过结合潜在狄利克雷分配（LDA）和k-Means聚类方法，数据集能够有效识别专利文本中包含制造信息的片段。这种方法的性能通过Cohen's kappa系数评估，达到了90%以上的高一致性。此外，数据集还支持命名实体识别（NER）模型的训练，用于提取制造过程中的操作、材料和条件等关键信息。

解决学术问题

该数据集解决了药物制造领域中信息提取的关键学术问题。由于大量药物制造信息以非结构化形式存在于专利文本中，传统方法难以高效提取和利用这些数据。通过开发基于NLP的工具，数据集成功将非结构化文本转化为可用于机器学习的结构化数据。这不仅填补了药物制造领域数据集的空白，还为人工智能在药物发现和治疗优化中的应用提供了重要支持。

衍生相关工作

该数据集衍生了一系列经典研究工作，特别是在药物制造和化学信息提取领域。例如，基于该数据集开发的NER模型在化学专利信息提取中表现出色，与现有工作相比具有竞争力。此外，数据集还启发了其他研究团队开发类似工具，用于提取无机合成程序和化学反应信息。这些工作进一步推动了NLP在药物制造和化学领域的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集