PRING|生物信息学数据集|蛋白质相互作用数据集
收藏PRING数据集概述
数据集基本信息
- 数据集名称:PRING (Protein-Protein Interaction Prediction from Pairs to Graphs)
- 研究领域:蛋白质-蛋白质相互作用(PPI)预测
- 主要任务:
- 拓扑导向任务(Topology-oriented Task)
- 功能导向任务(Function-oriented Task)
拓扑导向任务
1.1 种内PPI网络生成(人类)
- 数据文件:
./pring_dataset/human/BFS/human_train_ppi.txt
(训练集)./pring_dataset/human/BFS/human_val_ppi.txt
(验证集)./pring_dataset/human/BFS/human_all_test_ppi.txt
(测试集)./pring_dataset/human/human_simple.fasta
(蛋白质序列)
- 评估文件:
./pring_dataset/human/human_all_test_ppi_pred.txt
./pring_dataset/human/human_test_graph.pkl
./pring_dataset/human/human_BFS_sampled_nodes.pkl
- 评估指标:
- 图相似度
- 相对密度
- 度分布(MMD)
- 聚类系数(MMD)
- 谱分析(MMD)
1.2 跨物种PPI网络生成(拟南芥、酵母、大肠杆菌)
- 示例数据文件(拟南芥):
./pring_dataset/arath/arath_all_test_ppi.txt
./pring_dataset/arath/arath_test_graph.pkl
./pring_dataset/arath/arath_BFS_sampled_nodes.pkl
功能导向任务
2.1 蛋白质复合物通路预测
- 数据文件:
./pathway_data/complex_test_pairs.txt
./pathway_data/complex_proteins.fasta
./pathway_data/complex_graphs.pkl
- 评估指标:
- 通路召回率
- 通路精确率
- 通路连通性
2.2 GO富集分析
- 数据文件:
./pring_dataset/human/human_all_test_ppi_pred.txt
./pring_dataset/human/human_test_graph.pkl
- 评估指标:
- 功能对齐
- 一致性比率
2.3 必需蛋白质验证
- 数据文件:
./pring_dataset/human/human_all_test_ppi_pred.txt
./pring_dataset/human/human_test_graph.pkl
- 评估指标:
- Precision@K
- 分布重叠
数据获取
- 下载地址:https://doi.org/10.7910/DVN/22AUPR
- 存放位置:
./pring_dataset
文件夹
- 1PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs新加坡国立大学, 上海人工智能实验室, 西湖大学, 上海创新研究所, 复旦大学, 香港中文大学, 西安交通大学 · 2025年
United States Federal Election Commission (FEC) Databases
该数据集包含美国联邦选举委员会(FEC)的官方数据库,涵盖了选举相关的财务报告、候选人信息、政治行动委员会(PAC)数据、捐赠记录等。这些数据用于公开透明地记录和报告联邦选举的资金流动情况。
www.fec.gov 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
PU Dataset
德国帕德博恩大学(PU)轴承故障诊断数据集提供了丰富的轴承故障信号数据,包括内圈、外圈和滚动体故障等多种类型的轴承故障。与其他数据集相比,PU数据集的特色在于包含了大量的电机驱动系统故障数据,为轴承故障诊断研究提供了一个全面的实验平台。
github 收录