five

新药研发大模型

收藏
国家基础学科公共科学数据中心2026-01-03 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=6952a5b6195d266fa53fe87d&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
为了以自然语言形式建立分子结构与蛋白质结构之间的联系,任务二团队在自构建的两个跨模态大型数据集——PubChemQA 与 UniProtQA 上进行了多模态对齐训练,任务目标为回答与特定分子或蛋白质相关的问题。 1. PubChemQA 数据集来源于 PubChem,包含分子及其对应的文字描述。该数据集设计为单一类型的问题——“please describe the molecule”。在构建过程中,作者剔除了无法通过 RDKit 生成二维分子图的分子,并移除了文本长度少于 4 个词或多于 256 个词的描述。最终得到 325,754 个独立分子 与 365,129 个分子-文本配对样本,平均每段文本描述包含约 17 个词。 2. UniProtQA 数据集涵盖蛋白质及其功能和特性相关的文本查询。数据来源于 UniProt 数据库中的四类信息:功能描述、正式名称、蛋白质家族以及亚细胞定位。针对上述四类信息分别设计了问题模板。该数据集共包含 569,516 个蛋白质样本 和 1,891,506 个问答对。
提供机构:
清华大学智能产业研究院
二维码
社区交流群
二维码
科研交流群
商业服务