five

nvidia/esm2_uniref_pretraining_data

收藏
Hugging Face2025-09-28 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/nvidia/esm2_uniref_pretraining_data
下载链接
链接失效反馈
资源简介:
ESM-2 Uniref预训练数据集是一个基于UniRef数据库的子集,包括UniRef50和UniRef90的聚类蛋白质序列,用于ESM-2nv模型的预训练。数据集经过特定处理,包括移除人工序列和进行MMseqs聚类,并提供训练集和验证集。该数据集适用于蛋白质设计、结构生物学、生物工程、计算生物学和蛋白质工程等领域。

The ESM-2 Uniref Pretraining Data is a subset of the UniRef database, including UniRef50 and UniRef90 clustered protein sequences, used for pretraining the ESM-2nv model. The dataset has been processed to remove artificial sequences and clustered using MMseqs, providing both training and validation sets. It is suitable for fields such as protein design, structural biology, bioengineering, computational biology, and protein engineering.
提供机构:
nvidia
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作