five

Semantically Rich Local Dataset

收藏
arXiv2024-07-03 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2407.02984v1
下载链接
链接失效反馈
官方服务:
资源简介:
Semantically Rich Local Dataset是由里斯本大学科学学院LASIGE的研究团队开发的,旨在通过遗传编程生成用于基因组序列局部解释的数据集。该数据集包含5000条数据,通过引入语义多样性的扰动序列来探索模型的语义空间。数据集的创建过程涉及使用特定的语法规则和遗传操作符,确保生成的序列在语法上与原始数据相似,同时在模型预测中引入语义变异。该数据集主要应用于基因组学领域的可解释AI,特别是RNA剪接过程的研究,旨在揭示基因调控机制的复杂性。
提供机构:
里斯本大学科学学院LASIGE
创建时间:
2024-07-03
搜集汇总
数据集介绍
main_image_url
构建方式
Semantically Rich Local Dataset 构建了一种基于遗传编程(Genetic Programming, GP)的方法来生成局部解释所需的合成数据集。该方法通过在输入序列的语法邻域内进化扰动来生成数据集,从而在维持序列语法相似性的同时引入模型预测的语义变化。遗传编程使用一个定制的、领域指导的个体表示,有效地限制了语法相似性,并提供了两种替代的适应度函数,以促进多样性。该方法应用于RNA剪接领域,快速实现了良好的多样性,并在探索搜索空间方面显著优于随机基线。
使用方法
Semantically Rich Local Dataset 的使用方法主要包括以下步骤:首先,使用遗传编程方法生成合成数据集;然后,使用生成的数据集对解释模型进行训练;最后,使用训练好的解释模型对原始模型进行局部解释。此外,该数据集还可以用于下游的生物医学应用,例如基因表达预测、序列设计等。
背景与挑战
背景概述
在基因组学领域,深层神经网络模型在预测基因调控机制的结果方面表现出色。然而,由于这些模型的复杂性,目前仅能构建局部可解释的替代模型(例如,单个实例)。要实现这一点,需要在输入的邻域生成一个数据集,该数据集必须保持与原始数据的语法相似性,同时引入模型预测的语义变化。这一任务极具挑战性,因为DNA的序列到功能关系复杂。我们提出使用遗传编程来生成数据集,通过在序列中引入扰动来进化其语义多样性。我们的定制、领域引导的个体表示有效地约束了语法相似性,并提供两种替代的适应性函数,无需计算即可促进多样性。应用于RNA剪接领域,我们的方法快速实现了良好的多样性,并在探索搜索空间方面显著优于随机基线。此外,我们还评估了其泛化能力,并展示了其在更大序列上的可扩展性,与基线相比,性能提高了约30%。
当前挑战
生成语义丰富的本地数据集面临的挑战包括:1) 所解决的领域问题是RNA剪接,这是一个在基因表达过程中发生的重要生物过程,其中RNA序列被编辑以去除某些区域(内含子),然后将剩余的块(外显子)连接在一起。2) 构建过程中所遇到的挑战包括:由于序列长度与序列同时单核苷酸扰动的数量成线性增长,搜索空间呈指数级增长。因此,穷举搜索变得计算上不可行,而随机搜索则忽视了语义空间,可能导致数据集稀疏覆盖适应度景观。为了解决这个问题,我们提出使用具有定制领域感知语法的遗传编程(GP),该语法限制了应用于原始序列的扰动。我们还定义了两种适应性函数,Bin filler和Increased Archive Diversity,以评估每个序列提高数据集质量的潜力。
常用场景
经典使用场景
该数据集主要用于解释基因组学中深度学习模型的预测结果,通过生成具有语义丰富性和语法相似性的本地数据集,帮助研究者理解模型预测背后的生物学机制。
解决学术问题
该数据集解决了深度学习模型难以解释的问题,通过生成本地数据集,研究者可以训练可解释的替代模型,从而更好地理解模型的预测过程和生物学规律。
实际应用
该数据集在实际应用中可以用于辅助生物医学研究,帮助研究者预测基因表达水平,开发更有效的mRNA疫苗等。同时,该数据集也可以用于训练可解释的替代模型,以提高模型的可解释性和泛化能力。
数据集最近研究
最新研究方向
Semantically Rich Local Dataset Generation for Explainable AI in Genomics
相关研究论文
  • 1
    Semantically Rich Local Dataset Generation for Explainable AI in Genomics里斯本大学科学学院LASIGE · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作