ibm/otter_dude

Hugging Face2023-06-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ibm/otter_dude

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit --- # Otter DUDe Dataset Card Otter DUDe includes 1,452,568 instances of drug-target interactions. ## Dataset details #### DUDe DUDe comprises a collection of 22,886 active compounds and their corresponding affinities towards 102 targets. For our study, we utilized a preprocessed version of the DUDe, which includes 1,452,568 instances of drug-target interactions. To prevent any data leakage, we eliminated the negative interactions and the overlapping triples with the TDC DTI dataset. As a result, we were left with a total of 40,216 drug-target interaction pairs. **Original dataset:** - Citation: Samuel Sledzieski, Rohit Singh, Lenore Cowen, and Bonnie Berger. Adapting protein language models for rapid dti prediction. bioRxiv, pages 2022–11, 2022 **Paper or resources for more information:** - [GitHub Repo](https://github.com/IBM/otter-knowledge) - [Paper](https://arxiv.org/abs/2306.12802) **License:** MIT **Where to send questions or comments about the dataset:** - [GitHub Repo](https://github.com/IBM/otter-knowledge) **Models trained on Otter UBC** - [ibm/otter_dude_classifier](https://huggingface.co/ibm/otter_dude_classifier) - [ibm/otter_dude_distmult](https://huggingface.co/ibm/otter_dude_distmult) - [ibm/otter_dude_transe](https://huggingface.co/ibm/otter_dude_transe)

--- license: mit --- # Otter DUDe 数据集卡片 Otter DUDe 包含1,452,568个药物-靶标相互作用（Drug-Target Interaction，DTI）实例。 ## 数据集详情 #### DUDe DUDe 由22,886个活性化合物及其针对102个靶标的对应亲和力集合组成。本研究中，我们采用了经过预处理的DUDe版本，该版本包含1,452,568个药物-靶标相互作用实例。为避免数据泄露问题，我们移除了负相互作用样本以及与TDC药物-靶标相互作用（TDC DTI）数据集存在重叠的三元组。最终共得到40,216个药物-靶标相互作用对。 **原始数据集：** - 引用文献：Samuel Sledzieski、Rohit Singh、Lenore Cowen 与 Bonnie Berger. 适配蛋白质语言模型以实现快速药物-靶标相互作用预测（Adapting protein language models for rapid dti prediction）. bioRxiv, 2022, 页码2022–11. **更多信息获取渠道（论文或资源）：** - [GitHub 仓库](https://github.com/IBM/otter-knowledge) - [研究论文](https://arxiv.org/abs/2306.12802) **许可证：** MIT **数据集相关问题或意见反馈渠道：** - [GitHub 仓库](https://github.com/IBM/otter-knowledge) **基于Otter DUDe训练的模型** - [ibm/otter_dude_classifier](https://huggingface.co/ibm/otter_dude_classifier) - [ibm/otter_dude_distmult](https://huggingface.co/ibm/otter_dude_distmult) - [ibm/otter_dude_transe](https://huggingface.co/ibm/otter_dude_transe)

提供机构：

ibm

原始信息汇总

Otter DUDe Dataset Summary

Dataset Overview

Name: Otter DUDe
Instances: 1,452,568 instances of drug-target interactions
Active Compounds: 22,886
Targets: 102
Final Interaction Pairs: 40,216 after eliminating negative interactions and overlapping triples with the TDC DTI dataset

Dataset Content

Preprocessed Data: Utilized a preprocessed version of the DUDe dataset

Original Dataset Citation

Citation: Samuel Sledzieski, Rohit Singh, Lenore Cowen, and Bonnie Berger. Adapting protein language models for rapid dti prediction. bioRxiv, pages 2022–11, 2022

Additional Resources

Paper: arXiv:2306.12802
GitHub Repository: IBM/otter-knowledge

License

License: MIT

Contact Information

Questions or Comments: IBM/otter-knowledge GitHub Repository

Models Trained on Otter UBC

Classifier: ibm/otter_dude_classifier
DistMult: ibm/otter_dude_distmult
TransE: ibm/otter_dude_transe

搜集汇总

数据集介绍

构建方式

在药物发现领域，高质量的药物-靶点相互作用数据对于预测模型至关重要。Otter DUDe数据集基于DUDe原始集合构建，该集合包含22,886种活性化合物及其对102个靶点的亲和力信息。研究团队采用预处理流程，从原始数据中提取出1,452,568个药物-靶点相互作用实例。为确保数据独立性并避免信息泄露，团队移除了负向相互作用以及与TDC DTI数据集重叠的三元组，最终得到40,216个纯净的药物-靶点相互作用对，为后续分析奠定了可靠基础。

特点

该数据集在药物-靶点相互作用预测领域展现出显著特色。其核心优势在于规模宏大且经过精心筛选，涵盖超过四十万对高质量相互作用，为机器学习模型提供了丰富的训练样本。数据经过严格去重和清理，消除了与外部数据集的交叉污染，确保了评估的公正性。此外，数据集源自权威的DUDe资源，化合物与靶点覆盖范围广泛，能够有效支持多种预测任务的泛化能力研究，为药物发现中的计算模型开发提供了坚实的数据支撑。

使用方法

研究人员可利用该数据集进行药物-靶点相互作用的预测与验证。数据集通常以结构化格式提供，用户可直接加载用于训练分类或回归模型，如基于图的神经网络或矩阵分解方法。在具体应用中，建议遵循数据划分原则，将样本分为训练集、验证集和测试集，以评估模型性能。同时，可结合预训练模型如ibm/otter_dude_classifier进行迁移学习，或利用嵌入表示探索相互作用机制。使用过程中需注意遵守MIT许可协议，并参考相关论文与代码库以确保方法合规。

背景与挑战

背景概述

在药物发现领域，准确预测药物与靶点之间的相互作用是加速新药研发进程的核心环节。Otter DUDe数据集由IBM研究团队于2023年构建，其基础源于Samuel Sledzieski等人提出的DUDe原始数据，该数据集系统整合了22,886种活性化合物与102个靶点之间的亲和力信息。通过精细化预处理，该数据集最终形成了包含1,452,568个药物-靶点相互作用实例的高质量资源，旨在为基于人工智能的药物靶点相互作用预测模型提供可靠训练与评估基准。这一数据集的建立显著推动了计算药物发现领域的发展，为后续的蛋白质语言模型适配与跨数据集验证研究奠定了坚实的数据基础。

当前挑战

药物靶点相互作用预测领域长期面临数据稀疏性与负样本定义模糊的挑战，Otter DUDe数据集在构建过程中需解决原始数据中负相互作用样本的可靠筛选问题。为确保模型评估的严谨性，研究团队在预处理阶段剔除了与TDC DTI数据集重叠的三元组，并移除了负相互作用样本，这一过程对数据一致性与泛化能力提出了较高要求。此外，如何从海量原始亲和力数据中构建出无数据泄漏的大规模交互对集合，同时保持生物学意义的准确性，亦是数据集构建中的关键难点。

常用场景

经典使用场景

在药物发现领域，Otter DUDe数据集以其超过140万条药物-靶点相互作用实例，为计算生物学研究提供了关键资源。该数据集常被用于训练和评估药物-靶点相互作用预测模型，通过整合化合物活性数据与蛋白质靶点信息，支持基于机器学习的虚拟筛选方法开发。研究人员利用其大规模标注数据，构建深度神经网络或图神经网络模型，以高效识别潜在药物候选分子，加速早期药物研发流程。

衍生相关工作

基于Otter DUDe数据集，已衍生出多项经典研究工作，包括ibm/otter_dude_classifier等预训练模型。这些工作探索了DistMult、TransE等知识图谱嵌入方法在药物-靶点关系建模中的应用，并推动了蛋白质语言模型在DTI预测中的适配研究。相关成果为构建端到端药物发现框架提供了重要技术基础。

数据集最近研究