AmelieSchreiber/pha_clustered_protein_complexes
收藏Hugging Face2023-12-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AmelieSchreiber/pha_clustered_protein_complexes
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
---
This is a dataset of 10,000 interacting pairs of proteins obtained from UniProt,
and clustered using methods explain in [this blog post](https://huggingface.co/blog/AmelieSchreiber/faster-pha). Note,
cluster 0 is over-represented in this dataset and this should be considered when creating train/test splits with this
data.
提供机构:
AmelieSchreiber
原始信息汇总
数据集概述
数据来源
- 数据集包含10,000对相互作用的蛋白质,来源于UniProt。
数据处理
- 使用特定方法进行聚类,方法详情参见此博客文章。
注意事项
- 聚类0在数据集中过度代表,创建训练/测试集时应考虑此情况。



