UTexasAptamer

Hugging Face2025-07-18 更新2025-07-19 收录

下载链接：

https://huggingface.co/datasets/vladak/UTexasAptamer

下载链接

链接失效反馈

官方服务：

资源简介：

UTexasAptamer数据集是一个经过处理的UTexas Aptamer数据库版本，包含匹配的蛋白质序列。数据集分为训练集、验证集和测试集，特征包括两个序列字段seq_a和seq_b，以及一个标签字段label。

The UTexasAptamer dataset is a processed version of the UTexas Aptamer database, which contains matched protein sequences. The dataset is split into training, validation, and test sets, with its features including two sequence fields named seq_a and seq_b, as well as a label field named label.

创建时间：

2025-07-17

原始信息汇总

UTexasAptamer数据集概述

数据集来源

原始数据来源：UTexas Aptamer Database
原始数据地址：https://zenodo.org/records/8387047
蛋白质序列来源：UniProt REST API

数据集结构

数据文件

训练集：data/train-*
验证集：data/val-*
测试集：data/test-*

特征字段

seq_a：字符串类型
seq_b：字符串类型
label：浮点数类型

数据集统计

数据量

训练集：632个样本，439303字节
验证集：79个样本，53623字节
测试集：80个样本，63610字节

总体统计

下载大小：292240字节
数据集总大小：556536字节

搜集汇总

数据集介绍

构建方式

UTexasAptamer数据集基于UTexas Aptamer Database进行系统化构建，通过整合适配体序列及其匹配的蛋白质序列信息形成结构化数据。原始数据经由UniProt REST API进行蛋白质序列检索与验证，确保生物信息的准确性。数据集采用标准化的预处理流程，将原始数据划分为训练集、验证集和测试集，分别包含632、79和80组序列对，构建过程注重数据平衡性与生物相关性。

使用方法

使用者可通过HuggingFace数据集库直接加载UTexasAptamer，默认配置已预设train/val/test标准划分。每个数据样本以字典形式呈现，包含双序列字段和结合亲和力标签，适合用于监督学习任务。建议在生物信息学场景下，结合深度学习模型进行序列特征提取，可应用于分子对接预测或亲和力回归分析等研究方向。

背景与挑战

背景概述

UTexasAptamer数据集源于德克萨斯大学开发的适配体数据库，旨在为生物信息学和分子生物学研究提供高质量的核酸-蛋白质相互作用数据。该数据集收录了经过严格配对的核酸序列（适配体）与蛋白质序列，为研究分子识别机制和药物靶点设计奠定了重要基础。其核心价值在于通过系统化的数据整合，解决了传统研究中适配体-蛋白质相互作用数据分散且标准不统一的问题，显著提升了相关领域的数据可用性和研究效率。

当前挑战

该数据集面临的主要挑战体现在两个维度：在科学层面，适配体与蛋白质相互作用的预测涉及复杂的分子动力学和结构特征，如何准确表征这些高阶相互作用仍是领域内尚未完全解决的难题；在数据构建层面，原始数据的异构性导致序列匹配和标准化处理过程需要复杂的生物信息学流程，且部分低丰度蛋白质的适配体配对存在数据稀疏性问题。这些挑战直接影响了机器学习模型在分子相互作用预测任务中的泛化能力。

常用场景

经典使用场景

在生物信息学和计算生物学领域，UTexasAptamer数据集为研究核酸适配体（aptamer）与蛋白质相互作用提供了关键数据支持。该数据集通过配对的核酸序列和蛋白质序列，结合结合亲和力标签，为开发预测核酸适配体-蛋白质结合能力的机器学习模型奠定了数据基础。其经典使用场景包括训练深度学习模型预测新型核酸适配体的结合特性，以及分析序列特征与结合亲和力之间的构效关系。

解决学术问题

UTexasAptamer数据集有效解决了核酸适配体研究中实验验证周期长、成本高的瓶颈问题。通过提供大量经过实验验证的核酸适配体-蛋白质相互作用数据，该数据集使研究人员能够系统性地探索序列空间与结合特性的关联规律。这在核酸适配体的理性设计、结合位点预测以及多靶点交叉反应性分析等核心科学问题上提供了数据驱动的解决方案，显著加速了功能性核酸分子的发现进程。

实际应用

该数据集的实际价值体现在生物医学工程和药物开发等多个应用领域。基于UTexasAptamer训练的预测模型可直接用于设计针对特定疾病标志物的诊断性核酸适配体，或开发基于核酸适配体的靶向给药系统。在体外诊断领域，这些模型能够快速筛选出对肿瘤标志物等靶蛋白具有高亲和力的核酸序列，大幅缩短诊断试剂的研发周期。

数据集最近研究