BioTalk

github2024-06-13 更新2024-06-14 收录

下载链接：

https://github.com/Hoarfrost-Lab/BioTalk

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于多模态预测酶功能结合DNA序列和自然语言的基准数据集

A benchmark dataset for multimodal prediction of enzyme functions integrating DNA sequences and natural language.

创建时间：

2024-06-06

原始信息汇总

数据集概述

数据集名称

BioTalk

数据集目的

预测基因功能从DNA序列，伴随非结构化文本描述。

数据集结构

训练和验证数据集
- Benchmark-I
  - Train.parquet: 来自UniProtKB/TrEMBL和UniProtKB/Swiss-Prot的训练数据。
  - Valid.parquet: 来自相同合并数据集的验证数据。
- Benchmark-II
  - Train.parquet: 基于EC数计数的平衡训练数据。
  - Valid.parquet: 平衡验证数据。
- Benchmark-III
  - Train.parquet: 仅来自Swiss-Prot的训练数据，移除了分布外条目。
  - Valid.parquet: 来自相同集合的验证数据。
- Benchmark-IV
  - Train.parquet: 来自Benchmark-III的训练数据，平衡目标为每个EC数10个示例。
  - Valid.parquet: 类似平衡的验证数据。
测试数据集
- test1.csv: 从Benchmark-III派生的分布内测试数据。
- test2.csv: 从Benchmark-IV派生的平衡测试数据。

数据集贡献

新数据集: 将DNA序列与其功能描述配对，填补了现有资源的重大缺口。
多模态应用: 促进开发预测DNA功能自然语言的多模态模型。
单模态和多模态基准: 提供各种模型的基准，包括在DNA序列上预训练的转换器模型。
影响: 增强基因组数据的可解释性和实用性，适用于广泛的应用。

样本数据预览

AC	EC	OC	UniRef90	UniRef50	EmblCdsId	Sequence	UniRef100	Description
F9UMS6	4.1.1.101	Bacteria	UniRef90_F9UMS6	UniRef50_F9UMS6	CCC78515.1	ATGACAAAAACTGCAAGTGA ...	UniRef100_F9UMS6	The enzyme with the EC number 4.1.1.101 which is known as malolactic enzyme. It is ...
A0A0A7GEY4	2.5.1.1	Archaea	UniRef90_A0A0A7GEY4	UniRef50_A0A0A7GEY4	AIY90378.1	ATGATTTCTGAGATAATTAA ...	UniRef100_A0A0A7GEY4	Enzyme 2.5.1.1, identified as dimethylallyltranstransferase, is also known by geranyl-diphosphate synthase, prenyltransferase, ...

数据加载示例

python import pandas as pd

加载训练数据集

train_df = pd.read_parquet(Benchmark-Datasets-Train+Valid/Benchmark-I/Train.parquet) valid_df = pd.read_parquet(Benchmark-Datasets-Train+Valid/Benchmark-I/Valid.parquet)

显示前几行

print(train_df.head()) print(valid_df.head())

搜集汇总

数据集介绍

构建方式

在生物信息学领域，BioTalk数据集的构建旨在填补DNA序列与其功能描述之间的空白。该数据集通过整合来自UniProtKB/TrEMBL和UniProtKB/Swiss-Prot的训练和验证数据，形成了一系列基准数据集（Benchmark-I至Benchmark-IV）。每个基准数据集均包含平衡的训练和验证数据，其中Benchmark-III和Benchmark-IV特别针对EC编号进行了平衡处理，确保每种EC编号至少有10个示例。此外，测试数据集（test1.csv和test2.csv）分别从Benchmark-III和Benchmark-IV中提取，用于评估模型的泛化能力。

特点

BioTalk数据集的显著特点在于其多模态性质，结合了DNA序列和自然语言描述，为基因功能预测提供了丰富的信息源。该数据集不仅支持单模态模型的训练，还特别适用于多模态模型的开发，如利用预训练的transformer模型进行DNA序列嵌入的质量评估和EC编号的预测。此外，BioTalk还提供了零样本和少样本学习的基准，利用大型语言模型（如Llama 3）进行多模态预测，进一步提升了数据集的应用潜力。

使用方法

使用BioTalk数据集时，用户可以通过提供的链接下载数据，并使用Python和pandas库加载数据。例如，通过`pd.read_parquet`函数可以直接读取训练和验证数据。数据集的结构清晰，便于用户根据需要选择合适的基准数据集进行模型训练和验证。此外，数据集还附带了用于评估DNA序列嵌入质量和进行EC编号预测的Python脚本，用户可以根据这些脚本快速上手并进行相关实验。

背景与挑战

背景概述

BioTalk数据集由Hoarfrost实验室创建，旨在填补DNA序列与其功能描述之间关联的空白。该数据集通过整合DNA序列和自然语言描述，为酶功能的多模态预测提供了全面的基准。BioTalk的开发不仅促进了多模态模型的研究，还提升了基因组数据的解释性和实用性，对生物信息学和基因组学领域产生了深远影响。

当前挑战

BioTalk数据集在构建过程中面临多项挑战。首先，整合DNA序列与自然语言描述需要精确的数据对齐和标注，确保信息的准确性和一致性。其次，多模态数据的处理和分析要求高效的算法和计算资源，以应对大规模数据的复杂性。此外，数据集的平衡性和代表性也是关键问题，确保训练和验证数据能够全面反映实际应用场景。最后，如何利用多模态数据进行零样本和少样本学习，以提高模型在有限数据条件下的预测能力，是当前研究的重要方向。

常用场景

经典使用场景

在生物信息学领域，BioTalk数据集的经典使用场景主要集中在酶功能预测的多模态模型开发上。该数据集通过结合DNA序列和自然语言描述，为研究人员提供了一个独特的平台，用于训练和验证能够从基因序列中预测酶功能的模型。这种多模态方法不仅提高了预测的准确性，还增强了模型的解释能力，使其在基因组学研究中具有广泛的应用前景。

衍生相关工作

基于BioTalk数据集，研究人员开发了多种相关的经典工作。例如，利用该数据集进行DNA序列嵌入质量评估和酶委员会（EC）编号预测，这些工作不仅验证了数据集的有效性，还推动了多模态模型在生物信息学中的应用。此外，通过使用大型语言模型（LLM）进行零样本和少样本学习，进一步扩展了数据集的应用范围，为未来的研究提供了新的方向。

数据集最近研究