ICML2022/ProteinGym|生物信息学数据集|蛋白质工程数据集
收藏ProteinGym 数据集概述
数据集组成
ProteinGym 包含两个基准:
- 替换基准:包含约1.5M错义变异体的实验特征,涵盖87个DMS测定。
- 插入缺失基准:包含约300k变异体,涵盖7个DMS测定。
数据集文件内容
每个处理过的文件对应一个DMS测定,包含以下三个变量:
- mutant (字符串):
- 替换基准:描述应用于参考序列的替换集合以获得变异序列。
- 插入缺失基准:对应完整的变异序列。
- DMS_score (浮点数): 表示DMS测定中的实验测量值,所有测定中DMS_score值越高,变异蛋白的适应性越高。
- DMS_score_bin (整数): 指示DMS_score是否高于适应性阈值(1表示适应,0表示不适应)。
参考文件
提供两个参考文件:
ProteinGym_reference_file_substitutions.csv
ProteinGym_reference_file_indels.csv
这些文件包含每个测定的详细信息,包括:
- UniProt_ID、分类和MSA深度类别
- 测定中使用的目标序列(target_seq)
- DMS_score从原始文件创建及二值化的详细信息

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
DALY
DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。
ghdx.healthdata.org 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
中国省级灾害统计空间分布数据集(1999-2020年)
该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。
国家地球系统科学数据中心 收录