A Benchmark Dataset for Multimodal Prediction of Enzymatic Function

Name: A Benchmark Dataset for Multimodal Prediction of Enzymatic Function
Creator: 佐治亚大学
Published: 2024-07-22 03:27:43
License: 暂无描述

arXiv2024-07-22 更新2024-07-25 收录

下载链接：

https://hoarfrost-lab.github.io/BioTalk/

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由佐治亚大学开发，旨在结合DNA序列和自然语言描述来预测酶功能。数据集包含来自UniProt和ENA数据库的DNA序列及其相应的功能描述，总计约2787万条记录。数据集通过精细的筛选和映射过程创建，确保了数据的高质量和多样性。该数据集主要用于开发和评估多模态学习模型，以提高基因功能预测的准确性和可解释性。

This dataset was developed by the University of Georgia to predict enzyme functions by integrating DNA sequences and natural language descriptions. It contains DNA sequences and their corresponding functional descriptions sourced from the UniProt and ENA databases, with a total of approximately 27.87 million records. The dataset was constructed through a rigorous filtering and mapping process to ensure high data quality and diversity. It is primarily used for developing and evaluating multimodal learning models to improve the accuracy and interpretability of gene function prediction.

提供机构：

佐治亚大学

创建时间：

2024-07-22

搜集汇总

数据集介绍

构建方式

本数据集的构建采用了一种多层次的数据融合策略，首先从UniProt数据库中筛选出原核生物的基因DNA序列，并使用UniRef50、UniRef90和UniRef100聚类ID将UniProt序列映射到ENA数据库中的基因编码序列。随后，通过从KEGG数据库中抓取对应EC编号的详细功能描述，并结合UniProt中的额外功能信息，生成了自然语言描述。最后，数据集被分割成训练集、验证集和测试集，以促进模型的泛化能力。

特点

本数据集的特点在于其多模态性，将DNA序列与自然语言描述相结合，为机器学习模型提供了丰富的功能预测信息。此外，数据集包含了多种基准测试，支持无监督和监督学习任务，有助于评估模型的性能和泛化能力。数据集还提供了平衡和非平衡的版本，以满足不同的研究需求。

使用方法

使用本数据集时，研究者可以首先根据任务需求选择合适的基准测试数据集。然后，可以利用数据集中的DNA序列和自然语言描述进行模型训练和评估。此外，数据集还支持无监督和监督学习任务，研究者可以根据需要选择合适的模型和评估指标。最后，研究者可以利用数据集中的多模态特性，探索更高级的多模态学习模型。

背景与挑战

背景概述

预测基因功能从其DNA序列是生物学的基本挑战。虽然许多深度学习模型被提出用于嵌入DNA序列并预测其酶的功能，利用公共数据库中链接DNA序列和酶功能标签的信息。然而，科学界对生物功能的了解，并没有在这些分类标签中体现，而是通过机制、反应和酶行为的非结构化文本描述来捕捉。这些描述通常与DNA序列一起捕获在生物数据库中，尽管是以非结构化的方式。预测酶功能的深度学习模型很可能从这种多模态数据编码科学知识中受益。然而，没有数据集是为机器学习算法设计来利用这种多模态信息的。在这里，我们提出了一个新的数据集和基准套件，以探索和开发大型多模态神经网络模型，这些模型可以预测基因DNA序列和基因功能的自然语言描述。我们在基准测试中展示了基线性能，这些测试包括无监督和监督任务，这表明了这个建模目标的难度，同时展示了与仅使用DNA序列相比，在功能预测中纳入多模态数据类型的潜在益处。我们的数据集可以在https://hoarfrost-lab.github.io/BioTalk/找到。

当前挑战

解决领域问题的挑战：从DNA序列预测基因功能。构建过程中遇到的挑战：缺乏一个整合DNA序列和其功能描述的AI就绪数据集，这限制了结合生物学序列和科学知识（以自然语言捕捉）的高级多模态模型的发展。此外，生物数据库对研究充分的生物体存在偏见，不能捕捉自然界的全部功能多样性，并且就注释标签而言，数据库非常不平衡。因此，一个有效的AI驱动的功能预测模型必须能够概括到分布之外的序列，以推理新DNA序列的潜在功能。

常用场景

经典使用场景

在生物学中，预测基因功能是一个基础性的挑战。现有的深度学习模型虽然可以嵌入DNA序列并预测其酶的功能，但这些模型主要依赖于公共数据库中DNA序列与酶功能标签的关联信息。然而，许多科学知识并未包含在这些标签中，而是通过描述机制、反应和酶行为的非结构化文本形式存在。本数据集旨在通过整合DNA序列和自然语言描述，探索和开发大型多模态神经网络模型，以预测基因功能并提供详细的文本解释。

衍生相关工作

该数据集的衍生相关工作包括开发多模态学习框架，以处理异构数据并提高模型泛化能力。此外，该数据集还促进了DNA语言模型的研究，这些模型可以预测DNA序列的功能并提供详细的文本解释。这些研究成果对于生物信息学和机器学习领域都具有重要的意义。

数据集最近研究