GreatCaptainNemo/instruction_dataset

Name: GreatCaptainNemo/instruction_dataset
Creator: GreatCaptainNemo
Published: 2024-06-08 10:38:40
License: 暂无描述

Hugging Face2024-06-08 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/GreatCaptainNemo/instruction_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为ProLLaMA模型设计的，包含两个任务：通过超家族生成蛋白质和预测蛋白质的超家族。数据集的总样本数约为1200万，其中10%用于测试，90%用于训练，且通过scikit-learn随机分割。蛋白质序列来源于UniRef50，超家族信息来源于InterPro。使用数据集前需要遵循UniProt和InterPro的相关许可证。

提供机构：

GreatCaptainNemo

原始信息汇总

数据集概述

数据集名称

ProLLaMA 指令数据集

数据集用途

用于ProLLaMA模型，包含两个任务：

通过超家族生成蛋白质
预测蛋白质的超家族

数据集规模

总样本数约1200万
训练集占比90%
测试集占比10%

数据来源

蛋白质序列来源：UniRef50
超家族信息来源：InterPro

许可证

CC-BY-4.0

引用信息

若使用本数据集，请引用以下论文：

@article{lv2024prollama, title={ProLLaMA: A Protein Large Language Model for Multi-Task Protein Language Processing}, author={Lv, Liuzhenghao and Lin, Zongying and Li, Hao and Liu, Yuyang and Cui, Jiaxi and Chen, Calvin Yu-Chian and Yuan, Li and Tian, Yonghong}, journal={arXiv preprint arXiv:2402.16445}, year={2024} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集