PS4 Dataset|蛋白质结构预测数据集|生物信息学数据集
收藏数据集概述
名称: PS4 Dataset
描述: PS4是用于蛋白质单序列二级结构预测的最大开源数据集。该数据集包含18,731种蛋白质,每种蛋白质具有其PDB代码、DSSP文件中第一个残基的索引、残基序列以及9类二级结构序列(包括聚脯氨酸螺旋)。
数据结构:
- 核心数据: 位于
ps4_data/data/data.csv
。 - 训练/测试分割: 位于
ps4_data/data/chain_ids.npz
。
数据集扩展:
- 使用
python extend_ps4.py <in_path> <out_path>
脚本可以添加新的样本到数据集中,确保非冗余性。
使用:
- 数据准备: 使用
python main.py --gen_dataset
生成PyTorch准备的数据集。 - 训练: 使用
python main.py --train
命令进行模型训练。 - 评估: 使用
python main.py --eval
命令评估模型。 - 预测: 使用
python main.py --sample <fasta_path>
命令预测新序列的二级结构。
安装:
- 需要执行
chmod a+rx install.sh
和./install.sh
来安装必要的依赖和工具。
社区贡献:
- 通过创建拉取请求,社区成员可以贡献新的样本。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录