expRxRec

Name: expRxRec
Creator: Worcester Polytechnic Institute, Yale University, University of California, Davis, The University of Texas Health Science Center at Houston
Published: 2025-02-28 02:22:33
License: 暂无描述

arXiv2025-02-28 更新2025-03-04 收录

下载链接：

http://arxiv.org/abs/2502.20350v1

下载链接

链接失效反馈

官方服务：

资源简介：

expRxRec数据集是由Worcester Polytechnic Institute等机构的研究人员构建的，旨在为可解释药物发现任务提供全面的数据集。该数据集整合了来自现有生物医学知识图谱的结构化知识和来自医学文献的非结构化信息，通过从DRKG中抽取疾病-药物化合物对，并使用RAG技术从PubMed Central和Clinical Trials中提取相关背景信息来丰富数据。该数据集包含1,905,387篇文章，旨在帮助模型区分给定疾病的药物候选物，并促进药物发现的研究。

The expRxRec dataset was constructed by researchers from institutions including Worcester Polytechnic Institute, with the objective of providing a comprehensive dataset for explainable drug discovery tasks. This dataset integrates structured knowledge from existing biomedical knowledge graphs and unstructured information from medical literature. It enriches the dataset by extracting disease-drug compound pairs from DRKG, and leveraging RAG technology to extract relevant background information from PubMed Central and Clinical Trials. Containing 1,905,387 articles in total, this dataset is designed to assist models in distinguishing drug candidates for a given disease, and promote research in drug discovery.

提供机构：

Worcester Polytechnic Institute, Yale University, University of California, Davis, The University of Texas Health Science Center at Houston

创建时间：

2025-02-28

搜集汇总

数据集介绍

构建方式

expRxRec数据集的构建采用了多源数据融合的策略，整合了开源药物知识图谱、临床试验数据以及PubMed文献等资源。首先，从Drug Repurposing Knowledge Graph (DRKG)中提取了药物与疾病的相关对，形成了针对药物发现任务的知识子图。接着，通过Retrieval-Augmented Generation (RAG)技术，在PubMed和Clinical Trials中检索与每对药物-疾病相关的文献内容，以丰富其背景信息。最后，利用这些信息训练了一个大型语言模型（LLM），从而构建了一个全面的数据集。

特点

expRxRec数据集的特点在于其全面性和可解释性。数据集包含了药物与疾病的相关对，以及从PubMed和Clinical Trials中检索到的背景文献，这些文献为药物-疾病关系提供了丰富的上下文信息。此外，数据集还包含了LLM生成的解释性理由，这些理由能够清晰地展示药物推荐背后的逻辑，从而提高了药物发现的透明度和可信度。

使用方法

expRxRec数据集的使用方法主要涉及药物发现和药物推荐任务。研究人员可以利用数据集中的药物-疾病相关对以及背景文献来训练模型，从而预测药物对特定疾病的效果。同时，数据集中的解释性理由可以帮助研究人员理解药物推荐背后的逻辑，从而更好地进行药物设计。此外，数据集还可以用于评估不同模型的性能，以选择最佳的药物发现和推荐方法。

背景与挑战

背景概述

药物发现是生物医学自然语言处理（NLP）领域的一项关键任务，然而可解释的药物发现领域的研究却相对较少。随着大规模语言模型（LLMs）在自然语言理解和生成方面的显著能力，利用LLMs进行可解释的药物发现有望提高下游任务和实际应用。本研究利用开源药物知识图、临床试验数据和PubMed出版物构建了一个名为expRxRec的综合数据集，用于可解释的药物发现任务。此外，我们引入了KEDRec-LM，这是一个指令调整的LLM，它从丰富的医学知识语料库中提取知识，用于药物推荐和理由生成。为了促进该领域的进一步研究，我们将公开发布该数据集和KEDRec-LM。

当前挑战

expRxRec数据集和相关的研究面临着多方面的挑战。首先，从大规模知识图中识别和验证药物-疾病对是一个复杂的过程，由于关系的异质性和数据中潜在的噪声。其次，即使识别出相关的药物-疾病对，理解其上下文和含义也需要通过大量文献进行筛选，这些文献在质量、相关性和特异性上可能存在很大差异。此外，将这种丰富的信息转化为易于用于药物设计计算模型的格式仍然是一个未解决的挑战。为了应对这些挑战，我们提出了一个新颖的框架，该框架集成了知识图提取、文献挖掘和基于语言模型的推理。

常用场景

经典使用场景

在生物医药领域，药物发现是一个关键任务，其中解释性药物发现尚待深入探索。expRxRec数据集正是为了解决这个问题而构建的，它结合了开源药物知识图、临床试验数据以及PubMed出版物，提供了一个全面的药物发现数据集。该数据集的经典使用场景在于利用其丰富的生物医学知识库，通过知识蒸馏的方法，训练出能够进行药物推荐和理由生成的语言模型。这种模型可以深入理解药物与疾病之间的关系，为药物设计和发现提供有力的支持。

实际应用

expRxRec数据集在实际应用中，可以用于药物推荐和理由生成。通过训练出的语言模型，可以根据疾病和药物的信息，选择最适合的药物，并提供合理的解释。这种模型可以帮助医生更好地理解药物与疾病之间的关系，为患者提供更精准的治疗方案。此外，该数据集还可以用于药物再利用，通过分析现有的药物和疾病之间的关系，发现新的治疗机会。

衍生相关工作

expRxRec数据集的提出，推动了知识蒸馏技术在生物医药领域的应用。通过将知识从大型医学知识库中提取出来，并训练出能够进行药物推荐和理由生成的语言模型，expRxRec数据集为药物发现提供了一种新的思路。此外，该数据集还推动了知识图、文献挖掘和基于语言模型的推理的整合，为生物医药领域的研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集