five

EnigmaDataset

收藏
Hugging Face2025-05-09 更新2025-05-10 收录
下载链接:
https://huggingface.co/datasets/shivendrra/EnigmaDataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个经过精心整理的DNA序列数据库,来源于NCBI的Nucleotide数据库,包含了特定基因(如BRCA1、TP53、CFTR等)的DNA序列集合。数据以CSV和Parquet格式提供,方便用户进行机器学习和生物信息学相关任务。数据集通过预定义的Entrez查询来识别相关的GenBank记录,经过质量控制和过滤,最后导出为两种格式。
创建时间:
2025-05-03
搜集汇总
数据集介绍
main_image_url
构建方式
在基因组学研究领域,EnigmaDataset通过自动化流程系统化整合NCBI核苷酸数据库资源。该数据集采用Enigma2管道进行构建,首先基于预定义的Entrez查询策略筛选特定基因主题,随后通过批量检索机制获取GenBank记录,并实施严格的质量控制标准,剔除序列长度低于100bp或存在解析异常的记录。最终提取包含序列标识符、完整描述信息、碱基对长度及原始DNA字符串的核心元数据,并以CSV与Parquet双格式存储,确保数据结构的完整性与处理效率。
特点
该数据集凸显其专业价值于多维特性:涵盖BRCA1、TP53等关键基因的专题序列集合,每个主题独立存储并保持原始FASTA描述结构。序列数据严格遵循生物信息学规范,仅包含未经比对处理的纯净碱基序列(A/C/G/T),且通过系统化元数据标注实现快速索引。其规模控制在千万至亿级序列量级,既满足大规模分析需求又保持可管理性,为机器学习与生物计算研究提供标准化数据基底。
使用方法
针对生物信息学应用场景,该数据集支持多层级操作范式。用户可通过专属Python库实现动态数据加载与批量检索,亦可直接下载静态文件集成至现有分析流程。典型应用包括基于k-mer统计的特征工程构建、深度序列模型训练所需的原始DNA输入预处理,以及系统发育研究中遗传距离矩阵的计算。所有操作均兼容主流计算框架,并通过标准化数据格式确保跨平台协作的流畅性。
背景与挑战
背景概述
随着基因组学研究的深入,大规模DNA序列数据的管理与分析成为生物信息学领域的核心议题。EnigmaDataset由研究人员Harsh Shivendrra及其团队于2025年创建,依托Enigma2自动化流程整合美国国家生物技术信息中心(NCBI)的核苷酸数据库资源。该数据集聚焦BRCA1、TP53等关键基因的序列集合,通过标准化元数据提取与多格式存储,为机器学习驱动的基因功能预测与进化研究提供了结构化基础,显著提升了生物序列数据的可复用性与跨平台兼容性。
当前挑战
在基因序列分析领域,原始FASTA数据的异质性与规模性长期阻碍高效建模,例如序列长度差异导致的特征对齐困难及物种特异性变异识别难题。数据集构建过程中需克服NCBI接口的速率限制与数据完整性矛盾,通过批量检索与质量控制机制过滤低质量序列,同时确保跨基因主题的元数据一致性。此外,原始DNA字符串的非数值化特性要求特定特征工程方法(如k-mer统计)以适配深度学习框架,这对序列编码策略与计算资源分配提出了双重挑战。
常用场景
经典使用场景
在基因组学研究中,EnigmaDataset作为标准化的DNA序列资源,常被用于基因功能预测与变异分析。研究者通过提取特定基因如BRCA1和TP53的序列数据,结合k-mer频率统计和GC含量计算,构建机器学习模型以识别致病性突变。该数据集提供的原始FASTA格式序列支持端到端的深度学习训练,为探索非编码区功能元件提供了重要基础。
实际应用
在临床医学领域,该数据集支撑着精准医疗中的遗传病筛查流程。医疗机构利用其标准化的BRCA1基因序列,开发自动化变异解读工具,辅助遗传咨询师识别乳腺癌易感位点。同时,制药企业通过整合TP53等肿瘤相关基因数据,加速靶向药物研发中的生物标志物发现,实现从基因序列到临床决策的高效转化。
衍生相关工作
基于该数据集衍生的经典研究包括DNA-BERT等预训练模型,这些工作通过在大规模DNA序列上构建掩码语言任务,显著提升了启动子预测等任务的准确率。此外,EnigmaDataset还催生了多组学整合分析框架,如将序列特征与表观遗传数据耦合的深度神经网络,为理解基因调控机制提供了新范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作