five

未提及具体数据集名称

收藏
arXiv2025-04-29 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2504.20598v1
下载链接
链接失效反馈
官方服务:
资源简介:
本文未提及具体数据集名称和访问地址,但描述了一种从专利中提取药品制造信息的方法。该方法包括两个主要模型:1)一个用于选择包含制造数据文本片段的方法,2)一个命名实体识别系统,用于提取操作、材料和过程条件的信息。数据集包含208,596个药品相关的专利,通过文本聚类技术、潜在狄利克雷分配(LDA)和k-Means聚类算法识别与制造相关的文本部分。命名实体识别(NER)模型采用深度神经网络,在训练集上取得了84.2%的f1分数。该数据集主要用于解决药品制造领域的信息提取问题,旨在促进新药发现和改善治疗方案。

This paper does not specify the dataset's name and access URL, but presents a method for extracting pharmaceutical manufacturing information from patents. The method incorporates two core models: 1) a model for selecting text fragments containing manufacturing data, and 2) a named entity recognition (NER) system for extracting information on operations, materials and process conditions. The dataset comprises 208,596 pharmaceutical-related patents, and the manufacturing-related text segments are identified via text clustering techniques, Latent Dirichlet Allocation (LDA) and k-Means clustering algorithms. The named entity recognition (NER) model adopts deep neural networks and achieves an F1 score of 84.2% on the training set. This dataset is primarily utilized to address information extraction challenges in the pharmaceutical manufacturing field, aiming to promote new drug discovery and improve treatment regimens.
提供机构:
EPSRC Future Manufacturing Research Hub for Continuous Manufacturing and Advanced Crystallisation (CMAC), University of Strathclyde, Technology and Innovation Centre, 99 George Street, Glasgow G1 1RD, UK
创建时间:
2025-04-29
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集构建聚焦于从制药专利中提取制造信息,采用自然语言处理(NLP)技术。首先,通过专利数据库检索和筛选,收集了208,596项与制药相关的专利。随后,利用潜在狄利克雷分配(LDA)和k-Means聚类技术,对文本片段进行无监督分类,以识别包含制造信息的段落。最后,通过深度神经网络构建命名实体识别(NER)系统,提取操作、材料和工艺条件等关键信息。整个构建过程结合了文本预处理、主题建模和聚类分析,确保了数据的准确性和可用性。
特点
该数据集的特点在于其专注于制药制造领域,特别是小分子的初级和次级制造信息。数据集涵盖了丰富的实体类型,包括API、辅料、溶剂、操作和条件等,为制药信息提取提供了全面的标注。通过LDA和k-Means的结合,数据集能够高效分类和筛选相关文本片段,NER模型的F1分数达到84.2%,表现出较高的识别精度。此外,数据集的构建基于专利文本,具有较高的权威性和覆盖范围,为制药制造的信息提取和机器学习应用提供了可靠的基础。
使用方法
该数据集的使用方法主要包括三个步骤:首先,通过预训练的LDA和k-Means模型筛选出包含制造信息的文本片段;其次,利用深度神经网络(BiLSTM-CRF架构)对筛选出的文本进行命名实体识别,提取关键信息;最后,对提取的数据进行后处理,以提高信息的准确性和一致性。用户可以根据具体需求,调整模型的参数或结合其他NLP工具,进一步优化信息提取的效果。数据集适用于制药制造的信息挖掘、知识图谱构建和机器学习模型训练等多个场景。
背景与挑战
背景概述
近年来,医药制造领域积累了丰富多样的数据,然而这些信息大多以非结构化形式存在,难以直接应用于机器学习。自然语言处理(NLP)技术在生物医学和化学领域的信息提取中已展现出显著成效,推动了药物研发和治疗的进步。然而,针对药物制剂的二次制造信息提取仍存在明显空白。为此,研究人员Diego Alvarado-Maldonado等人开发了一套NLP工具,旨在从专利文献中提取初级和次级制造信息。该研究采用了无监督学习方法(LDA和k-Means聚类)识别相关文本片段,并利用深度神经网络构建命名实体识别(NER)系统,以提取操作、材料和工艺条件等关键信息。这一工作为医药制造领域的信息提取提供了新的技术路径。
当前挑战
该数据集面临的主要挑战包括:1) 领域问题挑战:专利文献通常描述模糊,缺乏明确的结构化部分,且内容涵盖广泛,从临床研究到制造工艺等多个方面,这使得准确提取特定制造信息变得复杂;2) 构建过程挑战:在模型开发中,研究人员需处理文本长度差异大、主题模型解释性有限等问题。此外,NER模型需识别多种实体类型(如材料、操作、条件等),但某些实体(如包装材料)在训练数据中出现频率较低,影响了模型识别效果。同时,如何区分初级和次级制造信息,以及处理语义相近实体的混淆(如反应物与辅料),也是构建过程中的关键难点。
常用场景
经典使用场景
该数据集在药物制造信息提取领域具有广泛的应用,特别是在自然语言处理(NLP)工具的开发中。通过结合潜在狄利克雷分配(LDA)和k-Means聚类方法,数据集能够有效识别专利文本中包含制造信息的片段。这种方法的性能通过Cohen's kappa系数评估,达到了90%以上的高一致性。此外,数据集还支持命名实体识别(NER)模型的训练,用于提取制造过程中的操作、材料和条件等关键信息。
解决学术问题
该数据集解决了药物制造领域中信息提取的关键学术问题。由于大量药物制造信息以非结构化形式存在于专利文本中,传统方法难以高效提取和利用这些数据。通过开发基于NLP的工具,数据集成功将非结构化文本转化为可用于机器学习的结构化数据。这不仅填补了药物制造领域数据集的空白,还为人工智能在药物发现和治疗优化中的应用提供了重要支持。
衍生相关工作
该数据集衍生了一系列经典研究工作,特别是在药物制造和化学信息提取领域。例如,基于该数据集开发的NER模型在化学专利信息提取中表现出色,与现有工作相比具有竞争力。此外,数据集还启发了其他研究团队开发类似工具,用于提取无机合成程序和化学反应信息。这些工作进一步推动了NLP在药物制造和化学领域的应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作