TextOmics
收藏arXiv2025-07-14 更新2025-07-16 收录
下载链接:
https://github.com/hala-ToDi
下载链接
链接失效反馈官方服务:
资源简介:
TextOmics是一个开创性的基准数据集,它建立了组学表达与分子文本描述之间的一对一对应关系。TextOmics提供了一种异构数据集,通过表示对齐来促进分子生成。该数据集包含了反映生物环境、传递语义知识和编码化学结构的SELFIES表示等三种异构数据。SELFIES作为一种桥梁表示,有效地将组学表达和文本描述联系起来。TextOmics数据集的构建过程涉及将分子暴露于特定的细胞环境,以获得相应的组学表达,并通过BioT5将SELFIES表示转换为相应的文本描述。TextOmics旨在解决药物发现中缺乏异构数据和统一框架的问题,用于生成具有治疗潜力的类似命中分子。
TextOmics is a groundbreaking benchmark dataset that establishes one-to-one correspondence between omics expressions and molecular text descriptions. TextOmics provides a heterogeneous dataset that facilitates molecular generation via representation alignment. This dataset includes three types of heterogeneous data: SELFIES representations that reflect biological contexts, convey semantic knowledge, and encode chemical structures. As a bridge representation, SELFIES effectively links omics expressions and text descriptions. The construction process of the TextOmics dataset involves exposing molecules to specific cellular environments to obtain corresponding omics expressions, and converting SELFIES representations into corresponding text descriptions via BioT5. TextOmics aims to address the lack of heterogeneous data and unified frameworks in drug discovery, and supports the generation of hit-like molecules with therapeutic potential.
提供机构:
华南师范大学人工智能学院, 中国中山大学计算机科学学院, 中国中山大学数据科学与人工智能阿伯丁研究所, 中国
创建时间:
2025-07-14
搜集汇总
数据集介绍

构建方式
TextOmics数据集的构建采用了多模态数据整合策略,通过将组学表达数据与分子文本描述进行一对一对齐,形成异质性数据集。具体而言,该数据集通过将分子暴露于特定细胞环境中获取组学表达数据,并利用BioT5模型将SELFIES分子表示转换为对应的文本描述,再经化学领域专家人工验证。SELFIES作为桥接表示,确保了组学数据与文本描述之间的严格对应关系,其基于规则的语法结构保障了分子表示的化学有效性。
特点
TextOmics数据集的核心特点在于其异质性与生物语义的双重整合。首先,数据集创新性地建立了组学表达、分子文本描述与诱导分子之间的三元映射,为靶向药物发现提供了多维度基准。其次,采用SELFIES作为分子表示,克服了传统SMILES的语法脆弱性,确保生成分子的化学有效性。此外,数据集涵盖ChemInduced、TargetPerturb和DiseaseSign三类数据,分别对应化学诱导、靶点扰动和疾病特征场景,全面覆盖药物发现的不同研究需求。
使用方法
TextOmics数据集需配合ToDi生成框架使用,其应用流程分为三个关键阶段:首先通过OmicsEn编码器提取组学表达的生物学特征嵌入ZO,同时利用TextEn编码器解析分子文本描述的语义嵌入ZD;随后通过交叉注意力机制融合两种嵌入形成联合条件表示Z;最终由DiffGen模块基于扩散模型实现条件化分子生成。用户可根据需求选择单一模态(仅组学或仅文本)或双模态联合指导生成,在零样本场景下还可将临床诊断文本替代结构化分子描述,实现疾病导向的分子设计。
背景与挑战
背景概述
TextOmics是由华南师范大学和日本大阪大学的研究团队于2025年推出的开创性多组学-文本关联数据集,旨在解决靶向药物发现中生物语境与分子表征割裂的核心问题。该数据集通过建立组学表达、分子文本描述与SELFIES分子表征之间的三元映射,首次实现了跨模态的生物语义对齐,为生成具有治疗潜力的类先导分子提供了异构数据基础。其创新性体现在整合LINCS L1000基因表达谱与生物活性分子文本注释,通过VAE-扩散模型的混合架构ToDi框架,显著推动了精准医疗领域的数据驱动药物设计范式发展。
当前挑战
TextOmics面临双重挑战:在领域层面需克服生物系统特异性与化学空间复杂性之间的鸿沟,现有方法难以同时满足分子结构合法性与靶标亲和性要求;在构建过程中遭遇多模态对齐难题,包括组学数据的高维度稀疏性(978维基因特征方差仅0.62)、分子文本描述的语义歧义(平均长度78词需专家校验),以及SELFIES表征的语法约束(250字符长度限制需设计词汇感知重映射策略)。此外,零样本生成场景下疾病特征与分子功能的跨域关联亦构成显著挑战。
常用场景
经典使用场景
在靶向药物发现领域,TextOmics数据集通过整合组学表达与分子文本描述,为生成具有治疗潜力的hit-like分子提供了关键支持。该数据集最经典的使用场景在于利用组学数据(如基因表达谱)和分子文本描述(如功能基团注释)之间的异质性关联,指导生成模型产生既符合生物上下文又具有化学有效性的候选分子。例如,在针对特定癌症靶点的药物设计中,研究人员可通过TextOmics提供的多模态对齐,生成与目标基因表达特征相匹配的分子结构,显著加速早期药物发现流程。
解决学术问题
TextOmics解决了药物发现中两大核心学术问题:一是传统方法依赖单一数据模态(如仅用SMILES字符串或基因表达数据)导致的生物-化学信息割裂问题,通过建立组学-文本-分子的三重映射实现了多源数据融合;二是分子生成中化学有效性与生物相关性难以兼顾的挑战,其采用的SELFIES表示和扩散模型框架确保了生成结果兼具结构合法性与靶向特异性。该数据集的意义在于首次构建了可量化评估生物语义对齐的基准,为AI驱动的分子设计提供了可解释性更强的研究范式。
衍生相关工作
围绕TextOmics衍生的经典工作包括三类突破性研究:1)多模态融合架构如ToDi框架,首次实现组学编码器(OmicsEn)与文本编码器(TextEn)的联合训练;2)基于扩散模型的分子生成方法DiffGen,将SELFIES表示与条件扩散过程结合;3)跨模态对齐技术如MolGene-E,通过对比学习增强组学特征与分子语义的关联。这些工作共同推动了从单模态生成(如GxVAEs)到多模态协同的药物设计范式转变,相关成果发表于AAAI、Nature Communications等顶级期刊会议。
以上内容由遇见数据集搜集并总结生成



