新药研发大模型

Name: 新药研发大模型
Creator: 清华大学智能产业研究院
License: 暂无描述

国家基础学科公共科学数据中心2026-01-03 收录

下载链接：

https://nbsdc.cn/general/dataDetail?id=6952a5b6195d266fa53fe87d&type=1

下载链接

链接失效反馈

官方服务：

资源简介：

为了以自然语言形式建立分子结构与蛋白质结构之间的联系，任务二团队在自构建的两个跨模态大型数据集——PubChemQA 与 UniProtQA 上进行了多模态对齐训练，任务目标为回答与特定分子或蛋白质相关的问题。 1. PubChemQA 数据集来源于 PubChem，包含分子及其对应的文字描述。该数据集设计为单一类型的问题——“please describe the molecule”。在构建过程中，作者剔除了无法通过 RDKit 生成二维分子图的分子，并移除了文本长度少于 4 个词或多于 256 个词的描述。最终得到 325,754 个独立分子与 365,129 个分子-文本配对样本，平均每段文本描述包含约 17 个词。 2. UniProtQA 数据集涵盖蛋白质及其功能和特性相关的文本查询。数据来源于 UniProt 数据库中的四类信息：功能描述、正式名称、蛋白质家族以及亚细胞定位。针对上述四类信息分别设计了问题模板。该数据集共包含 569,516 个蛋白质样本和 1,891,506 个问答对。

提供机构：

清华大学智能产业研究院