siDPT dataset
收藏arXiv2025-09-19 更新2025-09-23 收录
下载链接:
https://github.com/honggen-zhang/siDPT
下载链接
链接失效反馈官方服务:
资源简介:
siDPT数据集是一个用于siRNA效力预测的偏好对数据集。该数据集通过查询NCBI数据库获取完整的靶标mRNA序列,并将每个mRNA序列截断为100个核苷酸长度,然后识别k个候选siRNA,并根据测量抑制率的差异构建高质量偏好对集。数据集包含多个靶标,每个靶标都有多个候选siRNA,以及它们之间的抑制率差异。该数据集旨在用于训练和评估siRNA效力预测模型,以提高siRNA抑制预测和泛化能力。
The siDPT dataset is a preference pair dataset for siRNA efficacy prediction. This dataset obtains full-length target mRNA sequences by querying the NCBI database, truncates each mRNA sequence to a length of 100 nucleotides, identifies k candidate siRNAs, and constructs a high-quality preference pair set based on differences in measured inhibition rates. The dataset includes multiple targets, each with multiple candidate siRNAs and the differences in inhibition rates among these candidates. This dataset is designed for training and evaluating siRNA efficacy prediction models, aiming to enhance the performance of siRNA inhibition prediction and the generalization ability of the models.
提供机构:
XtalPi, Inc
创建时间:
2025-09-19
原始信息汇总
siDPT数据集概述
数据集名称
siDPT
数据集描述
siRNA efficacy Prediction via Debiased Preference-Pair Transformer
搜集汇总
数据集介绍

构建方式
在siRNA研究领域,构建高质量数据集对于提升预测模型性能至关重要。siDPT数据集通过多阶段流程构建偏好对:首先从NCBI数据库获取全长mRNA序列,将其截断为100个核苷酸长度的结合窗口;随后在该窗口内识别多个候选siRNA,并基于抑制率差异筛选高置信度偏好对。这一过程特别关注实验测量误差,通过设定抑制率差异阈值过滤噪声数据,确保构建的偏好对具有可靠的生物学意义。
使用方法
数据集适用于训练siRNA-mRNA交互式Transformer模型,通过交叉注意力机制模拟生物结合过程。使用时需将siRNA和mRNA序列分别输入编码器,利用回归损失、排序损失和分类损失联合优化模型参数。特别地,模型引入去偏排序目标函数,通过噪声感知分布加权处理小抑制率差异,提升对实验误差的鲁棒性。该框架支持零样本泛化评估,可直接应用于新靶点siRNA效力预测。
背景与挑战
背景概述
siDPT数据集于2025年由XtalPi公司的Honggen Zhang、Xiangrui Gao和Lipeng Lai等人构建,聚焦于小干扰RNA(siRNA)疗效预测领域。该数据集旨在解决siRNA药物开发中因实验成本高昂而难以高效筛选有效序列的核心问题,通过整合公共数据库与新收集的专利数据,构建了包含偏好对的高质量训练样本。其创新性在于引入去偏排序目标与siRNA-mRNA交互式Transformer架构,显著提升了预测模型的泛化能力与鲁棒性,为RNA干扰疗法的精准设计提供了重要数据支撑。
当前挑战
siDPT数据集面临的领域挑战在于siRNA疗效预测需克服生物实验噪声干扰,如抑制率微小差异导致的标签不可靠性,以及mRNA二级结构对结合效率的影响。构建过程中的挑战包括从公开数据中提取高质量偏好对时需严格筛选抑制率差异阈值,同时需平衡不同靶基因数据集间的噪声水平,确保模型在跨靶点零样本评估中保持稳定性。
常用场景
经典使用场景
在RNA干扰技术领域,siDPT数据集被广泛应用于siRNA沉默效率的预测研究。该数据集通过构建高质量的偏好配对样本,整合了siRNA与目标mRNA的序列信息,为模型训练提供了丰富的交互数据。其经典使用场景包括基于Transformer架构的跨注意力机制模拟siRNA与mRNA的生物结合过程,从而精准预测siRNA的抑制率。这一方法显著提升了在公开数据集如Huesken和Takayuki上的预测性能,尤其在零样本迁移至专利数据集时展现出卓越的泛化能力。
解决学术问题
siDPT数据集有效解决了siRNA研究中因实验噪声导致的数据偏差问题。传统方法依赖手工特征或简单回归模型,难以处理湿式实验中的测量误差。该数据集通过去偏排序目标和偏好对构建,降低了微小抑制率差异带来的不可靠性,同时结合全局分类与局部排序损失,增强了模型对噪声的鲁棒性。这一创新不仅提升了预测的Pearson相关性,还为siRNA筛选提供了更可靠的学术基准,推动了RNAi治疗领域的标准化发展。
实际应用
在实际药物研发中,siDPT数据集为siRNA序列的快速筛选提供了关键支持。其构建的专利数据集包含KHK、CTNNB1和TMPRSS6等疾病相关靶点,通过高置信度抑制率测量,直接应用于临床前研究。例如,在肝细胞系HEP3B中,该数据集能指导研究人员从候选siRNA中优先选择高效序列,缩短实验周期并降低成本。这种数据驱动的方法已被整合至自动化设计平台,助力制药企业加速siRNA疗法的开发进程。
数据集最近研究
最新研究方向
在RNA干扰治疗领域,siRNA功效预测研究正朝着数据去偏与交互建模深度融合的方向发展。siDPT数据集通过构建偏好对数据框架,结合去偏排序目标与siRNA-mRNA交互Transformer,显著提升了预测模型的泛化能力与鲁棒性。这一进展呼应了生物信息学中对实验噪声校正的迫切需求,尤其在基于专利数据的零样本评估中展现出突破性性能。该方向不仅推动了siRNA设计从传统特征工程向数据驱动范式的转型,更为RNAi药物的高通量筛选提供了可扩展的计算基石,具有重要的临床转化潜力。
相关研究论文
- 1siDPT: siRNA Efficacy Prediction via Debiased Preference-Pair TransformerXtalPi, Inc · 2025年
以上内容由遇见数据集搜集并总结生成



