five

neuralninja110/protein-secondary-structure-nppe2

收藏
Hugging Face2025-12-16 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/neuralninja110/protein-secondary-structure-nppe2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于印度理工学院马德拉斯分校深度学习与生成AI课程中的蛋白质二级结构预测竞赛。主要任务是通过残基级别预测蛋白质的二级结构,包括八态(Q8,使用DSSP符号)和三态(Q3)分类。评估指标为宏F1分数的调和平均数。数据集包含7,262条训练序列和1,816条测试序列,序列长度从20到1,632个残基不等,平均长度为242.9个残基。标签分布详细展示了Q8和Q3分类中各类别的百分比。文件结构包括训练数据、测试数据和提交示例。

This dataset is used for the Protein Secondary Structure Prediction competition from the Deep Learning and Generative AI course at IIT Madras. The main task is to predict the secondary structure of proteins at the residue level using eight-state (Q8, DSSP notation) and three-state (Q3) classifications. The evaluation metric is the harmonic mean of macro F1 scores. The dataset contains 7,262 training sequences and 1,816 test sequences, with sequence lengths ranging from 20 to 1,632 residues and an average length of 242.9 residues. The label distribution provides percentages for each category in both Q8 and Q3 classifications. The file structure includes training data, test data, and a sample submission.
提供机构:
neuralninja110
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作