SaProtHub/Dataset-Structural_Similarity-ProteinShake|蛋白质结构数据集|深度学习数据集
收藏数据集概述
数据集名称
Structure Similarity Prediction
数据集描述
该数据集用于预测给定未对齐蛋白质对结构的(对齐)局部距离差异测试(LDDT)。目标值通过使用TM-align对所有1000个随机采样的单链蛋白质对进行对齐后计算得出。
数据集分割
- 结构类型: PDB
- 分割依据: 基于70%的结构相似性
- 分割详情:
- 训练集: 300699
- 验证集: 4559
- 测试集: 4850
数据格式
数据组织在LMDB格式中,数据库架构如下:
- 长度: 样本数量
- 样本详情:
- name_1: 蛋白质1的PDB ID
- name_2: 蛋白质2的PDB ID
- chain_1: 蛋白质1的链ID
- chain_2: 蛋白质2的链ID
- seq_1: 结构感知序列1
- seq_2: 结构感知序列2
- label: 蛋白质对的相似性值

FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
长江干流实时水位观测数据集(2024年)
该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。
国家地球系统科学数据中心 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录