five

DFrolova/MULAN_datasets

收藏
Hugging Face2024-06-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/DFrolova/MULAN_datasets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集卡片包含了用于评估蛋白质语言模型的预处理数据集,这些数据集用于论文《MULAN: Multimodal Protein Language Model for Sequence and Structure Encoding》中的模型评估。数据集包括两部分:一是用于训练MULAN-small的预处理AF-0.5M数据集(AF05_pretraining.zip),二是论文中使用的所有下游数据集的压缩文件。每个下游数据集文件夹包含一个`id2label.json`文件和一个预处理好的数据集文件夹,可以直接用于`ProteinDataset`类。用户需要手动下载每个下游任务和训练数据的压缩文件,并与论文的原始代码一起使用。

该数据集卡片包含了用于评估蛋白质语言模型的预处理数据集,这些数据集用于论文《MULAN: Multimodal Protein Language Model for Sequence and Structure Encoding》中的模型评估。数据集包括两部分:一是用于训练MULAN-small的预处理AF-0.5M数据集(AF05_pretraining.zip),二是论文中使用的所有下游数据集的压缩文件。每个下游数据集文件夹包含一个`id2label.json`文件和一个预处理好的数据集文件夹,可以直接用于`ProteinDataset`类。用户需要手动下载每个下游任务和训练数据的压缩文件,并与论文的原始代码一起使用。
提供机构:
DFrolova
原始信息汇总

数据集概述

数据集用途

本数据集用于评估蛋白质语言模型,具体应用于论文《MULAN: Multimodal Protein Language Model for Sequence and Structure Encoding》的研究中。

数据集内容

  1. 预训练数据集:包含用于训练MULAN-small模型的预处理AF-0.5M数据集(文件名为AF05_pretraining.zip)。
  2. 下游任务数据集:包含所有在论文中使用的下游任务数据集的压缩文件。每个下游任务数据集目录下包含以下内容:
    • id2label.json:包含每个数据集分割的目标标签。
    • dataset 文件夹:包含预处理后的数据集,可直接用于ProteinDataset类。

使用方法

用户需手动下载每个下游任务的数据集存档以及训练数据存档,并结合MULAN仓库中的原始代码使用这些数据集。

许可证

本数据集遵循MIT许可证。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作