five

yeast-no-GTL-overlap-pre-tokenized-NT

收藏
Hugging Face2025-08-28 更新2025-08-29 收录
下载链接:
https://huggingface.co/datasets/cskokgibbs/yeast-no-GTL-overlap-pre-tokenized-NT
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含基因(gene)、转录因子(TF)、交互作用(interaction)等字段,适用于生物信息学研究。数据集被划分为训练集(train),其中包含约4295710个示例,文件大小为21542999285字节。数据集还提供了默认配置,指定了训练数据的路径。
创建时间:
2025-08-26
原始信息汇总

数据集概述

基本信息

  • 数据集名称: yeast-no-GTL-overlap-pre-tokenized-NT
  • 存储位置: https://huggingface.co/datasets/cskokgibbs/yeast-no-GTL-overlap-pre-tokenized-NT
  • 下载大小: 2,835,567,439 字节
  • 数据集大小: 21,542,999,285 字节

数据特征

  • gene: 字符串类型
  • TF: 字符串类型
  • interaction: 64位整数类型
  • formatted_inputs: 字符串类型
  • input_ids: 32位整数列表
  • attention_mask: 8位整数列表
  • labels: 64位整数类型

数据划分

  • 训练集: 4,295,710 个样本,占用 21,542,999,285 字节

配置文件

  • 配置名称: default
  • 数据文件路径: data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在计算生物学领域,酵母基因调控网络的研究对理解转录因子与基因间相互作用至关重要。该数据集基于酵母基因组数据,通过严谨的预处理流程,剔除了与GTL数据集的重叠部分以确保独立性,随后采用预分词技术对基因和转录因子标识符进行标准化处理,并转化为结构化数值特征,包括输入标识符和注意力掩码,最终构建出包含数百万条交互记录的高质量样本。
使用方法
研究者可借助该数据集直接训练或微调自然语言处理或图神经网络模型,无需额外预处理步骤。输入标识符和注意力掩码可直接输入Transformer架构,标签字段适用于监督学习任务,如基因调控关系预测或交互分类。数据集的大规模样本容量支持模型进行高效分布式训练,适用于生物信息学领域的多类预测实验。
背景与挑战
背景概述
酵母基因调控网络数据集由计算生物学研究团队于二十一世纪初构建,致力于解析转录因子与靶基因之间的相互作用机制。该数据集通过整合高通量基因组学数据与机器学习技术,聚焦于基因表达调控这一核心生物学问题,为理解真核生物细胞内的分子调控网络提供了重要数据支撑。其构建推动了计算生物学与系统生物学领域的交叉融合,为基因功能预测与网络建模研究奠定了坚实基础。
当前挑战
该数据集需解决基因调控关系预测中的序列特异性识别与非线性相互作用建模挑战,涉及高维稀疏特征下的模式挖掘难题。构建过程中面临生物实验数据噪声过滤、正负样本不平衡处理,以及基因组序列与调控关系的多模态对齐问题,同时需确保训练集与测试集间无基因同源序列重叠以避免评估偏差。
常用场景
经典使用场景
在计算生物学领域,该数据集专为基因调控网络预测任务而构建,其经典使用场景聚焦于转录因子与靶基因之间相互作用的二分类问题。研究者通过预处理的输入标识序列和注意力掩码,能够高效训练深度学习模型,精准识别酵母细胞中基因调控的正负样本,为解析转录调控机制提供关键数据支撑。
解决学术问题
该数据集有效解决了基因调控关系预测中的高维度稀疏性和负样本稀缺性难题。通过提供大规模预标记的基因-转录因子对,显著提升了机器学习模型在调控关系推断中的泛化能力,推动了计算生物学领域从传统实验验证向数据驱动范式的转型,为复杂生物网络的系统性研究奠定基础。
实际应用
在实际应用中,该数据集支撑的预测模型可直接用于药物靶点发现和合成生物学设计。医药企业利用其预测结果筛选调控特定代谢通路的转录因子,加速抗癌药物研发进程;合成生物学家则通过识别关键调控关系,设计人工基因回路以优化微生物细胞工厂的生产效率。
数据集最近研究
最新研究方向
在基因组学与转录调控研究领域,该预分词数据集正推动基于Transformer的基因-转录因子相互作用预测模型发展。研究者聚焦于跨物种调控逻辑的迁移学习,通过注意力机制解析非编码区域的调控密码,结合单细胞测序数据提升模型在细胞类型特异性调控中的预测精度。此类工作不仅深化了对真核生物基因调控网络的理解,更为疾病相关突变的机制阐释提供了计算基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作