DFrolova/MULAN_datasets
收藏Hugging Face2024-06-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/DFrolova/MULAN_datasets
下载链接
链接失效反馈官方服务:
资源简介:
该数据集卡片包含了用于评估蛋白质语言模型的预处理数据集,这些数据集用于论文《MULAN: Multimodal Protein Language Model for Sequence and Structure Encoding》中的模型评估。数据集包括两部分:一是用于训练MULAN-small的预处理AF-0.5M数据集(AF05_pretraining.zip),二是论文中使用的所有下游数据集的压缩文件。每个下游数据集文件夹包含一个`id2label.json`文件和一个预处理好的数据集文件夹,可以直接用于`ProteinDataset`类。用户需要手动下载每个下游任务和训练数据的压缩文件,并与论文的原始代码一起使用。
该数据集卡片包含了用于评估蛋白质语言模型的预处理数据集,这些数据集用于论文《MULAN: Multimodal Protein Language Model for Sequence and Structure Encoding》中的模型评估。数据集包括两部分:一是用于训练MULAN-small的预处理AF-0.5M数据集(AF05_pretraining.zip),二是论文中使用的所有下游数据集的压缩文件。每个下游数据集文件夹包含一个`id2label.json`文件和一个预处理好的数据集文件夹,可以直接用于`ProteinDataset`类。用户需要手动下载每个下游任务和训练数据的压缩文件,并与论文的原始代码一起使用。
提供机构:
DFrolova
原始信息汇总
数据集概述
数据集用途
本数据集用于评估蛋白质语言模型,具体应用于论文《MULAN: Multimodal Protein Language Model for Sequence and Structure Encoding》的研究中。
数据集内容
- 预训练数据集:包含用于训练MULAN-small模型的预处理AF-0.5M数据集(文件名为AF05_pretraining.zip)。
- 下游任务数据集:包含所有在论文中使用的下游任务数据集的压缩文件。每个下游任务数据集目录下包含以下内容:
id2label.json:包含每个数据集分割的目标标签。dataset文件夹:包含预处理后的数据集,可直接用于ProteinDataset类。
使用方法
用户需手动下载每个下游任务的数据集存档以及训练数据存档,并结合MULAN仓库中的原始代码使用这些数据集。
许可证
本数据集遵循MIT许可证。



