Semantically Rich Local Dataset

Name: Semantically Rich Local Dataset
Creator: 里斯本大学科学学院LASIGE，里斯本大学医学研究所João Lobo Antunes，里斯本大学医学院
Published: 2024-07-05 18:48:27
License: 暂无描述

arXiv2024-07-05 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2407.02984v2

下载链接

链接失效反馈

官方服务：

资源简介：

本研究提出了一种用于基因组学中可解释AI的语义丰富局部数据集生成方法。该数据集由LASIGE和里斯本大学医学研究所创建，旨在通过遗传编程生成具有语义多样性的序列扰动数据集。数据集包含5000条数据，通过特定的语法规则和遗传操作生成，以确保数据集在语法相似性的同时具有语义多样性。该数据集主要应用于RNA剪接领域，旨在通过局部解释提高深度学习模型在基因调控机制预测中的可解释性。

This study proposes a semantically rich local dataset generation method for explainable AI (XAI) in genomics. Developed by LASIGE and the Instituto de Medicina da Universidade de Lisboa, the dataset is generated via genetic programming to produce sequence perturbation datasets with semantic diversity. Comprising 5000 entries, the dataset is constructed following specific grammatical rules and genetic operations, ensuring that it maintains grammatical similarity while exhibiting semantic diversity. Primarily applied in the field of RNA splicing, this dataset aims to enhance the explainability of deep learning models for predicting gene regulatory mechanisms through local explanations.

提供机构：

里斯本大学科学学院LASIGE，里斯本大学医学研究所João Lobo Antunes，里斯本大学医学院

创建时间：

2024-07-03

搜集汇总

数据集介绍

构建方式

Semantically Rich Local Dataset (SRLD) 是通过遗传编程 (GP) 方法构建的。该方法使用领域指导的个体表示有效地约束语法相似性，并提供两种替代的适应度函数来促进多样性。SRLD 的构建首先使用语法来表示序列中的变异，而不是使用序列本身作为字符串。然后，这些变异被应用于原始序列，以生成新的序列，这些序列在语法上与原始序列相似，但在语义上有所不同。这些序列被输入到深度学习模型中，以获得对模型预测空间的预测。遗传编程算法使用适应度函数来评估每个序列，并将其与档案中的其他序列进行比较。适应度函数旨在促进档案中的多样性，并确保所有预测空间都被充分覆盖。最终，档案成为 SRLD，用于解释深度学习模型。

使用方法

SRLD 可用于解释基因组深度学习模型。通过分析 SRLD 中的序列，研究人员可以了解模型如何对特定序列进行预测，并识别影响模型预测的因素。此外，SRLD 还可用于训练可解释的替代模型，这些模型可以模拟黑盒模型的预测，并提供对模型学习内容的洞察。SRLD 的构建方法也使其适用于各种基因组应用，例如序列设计、基因表达预测和剪接预测。

背景与挑战

背景概述

在基因组学领域，深学习模型在预测基因调控机制方面表现出色，但模型的可解释性仍然是一个挑战。Semantically Rich Local Dataset（语义丰富的局部数据集）数据集的创建旨在解决这一问题。该数据集由葡萄牙里斯本大学LASIGE的研究人员Pedro Barbosa、Rosina Savisaar和Alcides Fonseca于2024年提出，旨在为解释性人工智能（Explainable AI）在基因组学中的应用提供支持。该数据集的核心研究问题是如何生成一个在语法上与原始数据相似但在模型预测上具有语义多样性的局部数据集，以实现局部解释。该数据集对相关领域的影响力体现在它为解释复杂深学习模型提供了一个新的视角，并展示了如何通过进化计算方法来生成具有高语义多样性的数据集。

当前挑战

Semantically Rich Local Dataset数据集在构建过程中面临的主要挑战包括：1) 生成的数据集需要在语法上与原始数据相似，同时在模型预测上具有语义多样性，以充分探索模型的预测空间；2) 由于DNA序列到功能的复杂关系，生成具有语义多样性的数据集是一个具有巨大组合搜索空间的任务，这要求算法能够在不牺牲多样性的情况下有效地探索这一空间。此外，随机搜索和穷举搜索等方法在处理这种大型搜索空间时可能不切实际，因此需要开发新的算法来解决这一问题。

常用场景

经典使用场景

Semantically Rich Local Dataset (SRLD) 的经典应用场景在于解释基因组学中的深度学习模型。由于深度学习模型在基因序列预测方面表现出色，因此对这些模型进行解释可以揭示其背后的生物学原理，从而支持下游的生物医学应用。然而，由于这些模型的复杂性，可解释的替代模型只能构建局部解释（例如，单个实例）。为了实现这一点，需要生成一个在输入附近的局部数据集，该数据集必须保持与原始数据的语法相似性，同时在模型的预测中引入语义变化。这是一个具有挑战性的任务，因为DNA的序列到功能的映射关系复杂。SRLD 使用遗传编程生成数据集，通过在序列中引入扰动来进化其语义多样性。这种定制的、领域引导的个体表示有效地限制了语法相似性，并提供了两种替代的适应性函数，这些函数可以在不增加计算成本的情况下促进多样性。

解决学术问题

SRLD 解决了在基因组学中解释深度学习模型时遇到的学术研究问题。传统的深度学习模型通常是黑盒模型，难以解释其预测背后的生物学机制。SRLD 通过生成局部数据集，使得研究人员可以构建可解释的替代模型，从而揭示深度学习模型学习到的生物学规律。此外，SRLD 还解决了生成局部数据集时的计算问题，通过遗传编程有效地探索了搜索空间，从而提高了数据集的质量。

实际应用

SRLD 的实际应用场景包括但不限于：1. 解释基因组学中的深度学习模型，揭示其背后的生物学机制。2. 生成局部数据集，用于训练可解释的替代模型。3. 评估深度学习模型的泛化能力。4. 研究基因调控机制。

数据集最近研究