DeepSEA training dataset|深度学习数据集|基因组学数据集
收藏数据集概述
数据集名称
DeepSEA训练数据集
数据集描述
DeepSEA训练数据集用于训练DeepSEA模型,该模型是一个基于深度学习的算法框架,用于预测序列改变对染色质效应的影响,具有单核苷酸敏感性。
数据集格式
- 输入准备: 将基因组分割成200bp的bin,每个bin计算919个染色质特征的标签。
- 标签计算: 如果超过一半的200bp bin位于峰值区域,则该染色质特征标签为1,否则为0。
- 训练样本: 每个训练样本包含人类GRCh37参考基因组中以每个200bp bin为中心的1000bp序列,以及919个染色质特征的标签向量。
- 序列表示: 1000bp DNA序列由1000×4二进制矩阵表示,列对应于A、G、C和T。
数据集构建
- 数据来源: 训练标签从均匀处理的ENCODE和Roadmap Epigenomics数据发布中计算得出。
- 数据分割: 训练和测试集按染色体分割,严格非重叠。染色体8和9被排除在训练之外,用于测试染色质特征预测性能。
- 验证集: 染色体7上的4000个样本(基因组坐标30,508,751–35,296,850)用作验证集。
数据集文件
- 训练数据: 包含DNA序列和标签的文件,格式与论文作者提供的相同。
- 数据和标签文件: 包含训练、验证和测试的数据和标签,保存为
.npy
格式。
数据集使用
- 模型训练: 可以使用生成的数据集在Google Colab上训练DeepSEA模型。
- 数据集比较: 可以比较生成的数据集与原始数据集的标签和序列向量。
数据集差异
- 标签差异: 与原始数据集相比,生成的数据集标签差异为0.10%。
- 序列差异: 序列向量差异非常小,为0.0001%。
自定义数据集构建
- 使用ENCODE数据: 可以构建基于ENCODE项目的自定义数据集,用于训练DeepSEA模型。
数据集调试
- 调试信息: 可以通过添加命令行参数保存所有数据为人类可读的
.tsv
文件,用于调试和验证结果。
数据集支持
- 基因组支持: 目前仅支持hg19基因组组装,但支持其他基因组组装的工作正在进行中。

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
Cifar-100
Cifar-100数据集包含100个类别的60000张32x32彩色图像,每个类别有600张图像。这些类别被分为20个超类,每个超类包含5个子类。数据集分为50000张训练图像和10000张测试图像。
www.cs.toronto.edu 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录