Synthyra/bernett_gold_ppi
收藏Hugging Face2025-02-07 更新2025-02-15 收录
下载链接:
https://hf-mirror.com/datasets/Synthyra/bernett_gold_ppi
下载链接
链接失效反馈官方服务:
资源简介:
这是一个平衡的二分类蛋白质-蛋白质相互作用数据集,正面样本来自HIPPIE数据库,分割过程中确保了没有序列重叠,并基于最大CD-HIT的40%序列相似性进行分割,同时减少了节点度偏差。
This is a balanced binary protein-protein interaction dataset with positives from HIPPIE and partitioned without sequence overlaps based on a maximum CD-HIT of 40% pairwise sequence similarity, while also reducing node degree bias.
提供机构:
Synthyra
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个平衡的二进制蛋白质-蛋白质相互作用(PPI)数据集,用于深度学习模型中的PPI预测。它基于HIPPIE正样本,通过KaHIP分区,并确保无序列重叠,使用最大CD-HIT 40%的序列相似性进行分割,以减少节点度偏差。数据集包含训练、验证和测试三个分割,总行数约为275k行,适用于无偏序列基PPI预测研究。
以上内容由遇见数据集搜集并总结生成



