protein_secondary_structure_from_PDB|蛋白质结构数据集|机器学习数据集
收藏数据集概述
数据集信息
特征
- PDB_ID: 字符串类型
- Sequence: 字符串类型
- Secondary_structure: 字符串类型
- AH: 浮点数类型
- BS: 浮点数类型
- T: 浮点数类型
- UNSTRUCTURED: 浮点数类型
- BETABRIDGE: 浮点数类型
- 310HELIX: 浮点数类型
- PIHELIX: 浮点数类型
- BEND: 浮点数类型
- Sequence_length: 整数类型
- Sequence_spaced: 字符串类型
- Primary_SS_Type: 字符串类型
- Secondary_SS_Type: 字符串类型
数据分割
- train: 包含125957个样本,占用338419581字节
数据大小
- 下载大小: 139433982字节
- 数据集大小: 338419581字节
数据集描述
概述
- 包含125,955个蛋白质序列,包括蛋白质PDB ID、长度、序列(一级结构)以及实验识别的二级结构。
- 最短的蛋白质由11个氨基酸组成,最长的蛋白质包含19,350个氨基酸。
- 长度标准差为855个氨基酸。
二级结构内容
- 大多数序列的β片层含量低于30%,约20,000个序列的β片层含量低于10%。
- α螺旋比β片层比例通常更高。
- 大多数序列的α螺旋含量在30%到50%之间,但有一小部分序列的α螺旋含量超过80%。
- 数据集中有大量序列的α螺旋和β片层比例低于5%。
数据集统计
- 提供了长度分布和二级结构内容分布的图表。
- 包含主要和次要二级结构类型的分布图表。
蛋白质二级结构预测结果
- 该数据集用于训练模型,预测基于序列的蛋白质二级结构内容。
蛋白质设计示例
- 展示了系统性点突变对α螺旋和β片层含量的影响。
引用
bibtex @article{YuBuehler2022, title={End-to-End Deep Learning Model to Predict and Design Secondary Structure Content of Structural Proteins}, author={Chi-Hua Yu and Wei Chen and Yu-Hsuan Chiang and Kai Guo and Zaira Martin Moldes and David L Kaplan and Markus J Buehler}, journal={ACS Biomaterials Science & Engineering}, volume={8}, number={3}, pages={1156-1165}, year={2022}, month={Mar}, doi={10.1021/acsbiomaterials.1c01343}, pmid={35129957}, pmcid={PMC9347213} }

URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
rag-datasets/rag-mini-bioasq
该数据集主要用于问答和句子相似性任务,涉及生物医学领域。数据集包含两个配置:text-corpus和question-answer-passages,分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集,并通过`generate.py`脚本生成了子集。
hugging_face 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
MinneApple 苹果检测数据集
MinneApple 是一个用于苹果检测和分割的基准数据集。该数据集使用多边形掩码为每个对象实例进行标注,以帮助进行精确的对象检测、定位、和分割。此外,该数据集提供了基于补丁的聚类水果计数数据。该数据集在 1000 张图像中包含超过 41,0000 个带标注的对象实例。
超神经 收录