DeepSEA training dataset|深度学习数据集|基因组学数据集
收藏数据集概述
数据集名称
DeepSEA训练数据集
数据集描述
DeepSEA训练数据集用于训练DeepSEA模型,该模型是一个基于深度学习的算法框架,用于预测序列改变对染色质效应的影响,具有单核苷酸敏感性。
数据集格式
- 输入准备: 将基因组分割成200bp的bin,每个bin计算919个染色质特征的标签。
- 标签计算: 如果超过一半的200bp bin位于峰值区域,则该染色质特征标签为1,否则为0。
- 训练样本: 每个训练样本包含人类GRCh37参考基因组中以每个200bp bin为中心的1000bp序列,以及919个染色质特征的标签向量。
- 序列表示: 1000bp DNA序列由1000×4二进制矩阵表示,列对应于A、G、C和T。
数据集构建
- 数据来源: 训练标签从均匀处理的ENCODE和Roadmap Epigenomics数据发布中计算得出。
- 数据分割: 训练和测试集按染色体分割,严格非重叠。染色体8和9被排除在训练之外,用于测试染色质特征预测性能。
- 验证集: 染色体7上的4000个样本(基因组坐标30,508,751–35,296,850)用作验证集。
数据集文件
- 训练数据: 包含DNA序列和标签的文件,格式与论文作者提供的相同。
- 数据和标签文件: 包含训练、验证和测试的数据和标签,保存为
.npy
格式。
数据集使用
- 模型训练: 可以使用生成的数据集在Google Colab上训练DeepSEA模型。
- 数据集比较: 可以比较生成的数据集与原始数据集的标签和序列向量。
数据集差异
- 标签差异: 与原始数据集相比,生成的数据集标签差异为0.10%。
- 序列差异: 序列向量差异非常小,为0.0001%。
自定义数据集构建
- 使用ENCODE数据: 可以构建基于ENCODE项目的自定义数据集,用于训练DeepSEA模型。
数据集调试
- 调试信息: 可以通过添加命令行参数保存所有数据为人类可读的
.tsv
文件,用于调试和验证结果。
数据集支持
- 基因组支持: 目前仅支持hg19基因组组装,但支持其他基因组组装的工作正在进行中。

suno
该数据集包含由人工智能生成的659,788首歌曲的元数据,这些歌曲由suno.com平台生成。数据集是多语言的,主要语言为英语,但也包含日语和其他语言的歌词和标题。每个歌曲的元数据包括唯一标识符、视频和音频URL、封面图像URL、AI模型版本、生成状态、创作者信息等。数据集根据CC0许可证公开,允许任何用途的使用、修改和分发。
huggingface 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
Pubmed
Pubmed 数据集包含来自 PubMed 数据库的 19717 篇与糖尿病相关的科学出版物,分为三类之一。引文网络由 44338 个链接组成。数据集中的每个出版物都由字典中的 TF/IDF 加权词向量描述,该字典由 500 个唯一词组成。
OpenDataLab 收录
SPIQA
SPIQA数据集由谷歌研究院和约翰斯·霍普金斯大学共同创建,是首个针对科学研究论文中复杂图表和表格进行多模态问答的大规模数据集。该数据集包含270,194个问题,涉及计算机科学多个领域的研究论文。数据集的创建过程结合了自动和手动筛选,确保了数据的质量和多样性。SPIQA数据集主要用于评估多模态大型语言模型在理解科学论文中的图表和表格方面的能力,旨在提高信息检索和问答系统的性能。
arXiv 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录