DFrolova/MULAN_datasets

Name: DFrolova/MULAN_datasets
Creator: DFrolova
Published: 2024-06-03 11:31:39
License: 暂无描述

Hugging Face2024-06-03 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/DFrolova/MULAN_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集卡片包含了用于评估蛋白质语言模型的预处理数据集，这些数据集用于论文《MULAN: Multimodal Protein Language Model for Sequence and Structure Encoding》中的模型评估。数据集包括两部分：一是用于训练MULAN-small的预处理AF-0.5M数据集（AF05_pretraining.zip），二是论文中使用的所有下游数据集的压缩文件。每个下游数据集文件夹包含一个`id2label.json`文件和一个预处理好的数据集文件夹，可以直接用于`ProteinDataset`类。用户需要手动下载每个下游任务和训练数据的压缩文件，并与论文的原始代码一起使用。

提供机构：

DFrolova

原始信息汇总

数据集概述

数据集用途

本数据集用于评估蛋白质语言模型，具体应用于论文《MULAN: Multimodal Protein Language Model for Sequence and Structure Encoding》的研究中。

数据集内容

预训练数据集：包含用于训练MULAN-small模型的预处理AF-0.5M数据集（文件名为AF05_pretraining.zip）。
下游任务数据集：包含所有在论文中使用的下游任务数据集的压缩文件。每个下游任务数据集目录下包含以下内容：
- id2label.json：包含每个数据集分割的目标标签。
- dataset 文件夹：包含预处理后的数据集，可直接用于ProteinDataset类。

使用方法

用户需手动下载每个下游任务的数据集存档以及训练数据存档，并结合MULAN仓库中的原始代码使用这些数据集。

许可证

本数据集遵循MIT许可证。

5,000+

优质数据集

54 个

任务类型

进入经典数据集