BioTalk
收藏github2024-06-13 更新2024-06-14 收录
下载链接:
https://github.com/Hoarfrost-Lab/BioTalk
下载链接
链接失效反馈官方服务:
资源简介:
一个用于多模态预测酶功能结合DNA序列和自然语言的基准数据集
A benchmark dataset for multimodal prediction of enzyme functions integrating DNA sequences and natural language.
创建时间:
2024-06-06
原始信息汇总
数据集概述
数据集名称
BioTalk
数据集目的
预测基因功能从DNA序列,伴随非结构化文本描述。
数据集结构
-
训练和验证数据集
- Benchmark-I
- Train.parquet: 来自UniProtKB/TrEMBL和UniProtKB/Swiss-Prot的训练数据。
- Valid.parquet: 来自相同合并数据集的验证数据。
- Benchmark-II
- Train.parquet: 基于EC数计数的平衡训练数据。
- Valid.parquet: 平衡验证数据。
- Benchmark-III
- Train.parquet: 仅来自Swiss-Prot的训练数据,移除了分布外条目。
- Valid.parquet: 来自相同集合的验证数据。
- Benchmark-IV
- Train.parquet: 来自Benchmark-III的训练数据,平衡目标为每个EC数10个示例。
- Valid.parquet: 类似平衡的验证数据。
- Benchmark-I
-
测试数据集
- test1.csv: 从Benchmark-III派生的分布内测试数据。
- test2.csv: 从Benchmark-IV派生的平衡测试数据。
数据集贡献
- 新数据集: 将DNA序列与其功能描述配对,填补了现有资源的重大缺口。
- 多模态应用: 促进开发预测DNA功能自然语言的多模态模型。
- 单模态和多模态基准: 提供各种模型的基准,包括在DNA序列上预训练的转换器模型。
- 影响: 增强基因组数据的可解释性和实用性,适用于广泛的应用。
样本数据预览
| AC | EC | OC | UniRef90 | UniRef50 | EmblCdsId | Sequence | UniRef100 | Description |
|---|---|---|---|---|---|---|---|---|
| F9UMS6 | 4.1.1.101 | Bacteria | UniRef90_F9UMS6 | UniRef50_F9UMS6 | CCC78515.1 | ATGACAAAAACTGCAAGTGA ... | UniRef100_F9UMS6 | The enzyme with the EC number 4.1.1.101 which is known as malolactic enzyme. It is ... |
| A0A0A7GEY4 | 2.5.1.1 | Archaea | UniRef90_A0A0A7GEY4 | UniRef50_A0A0A7GEY4 | AIY90378.1 | ATGATTTCTGAGATAATTAA ... | UniRef100_A0A0A7GEY4 | Enzyme 2.5.1.1, identified as dimethylallyltranstransferase, is also known by geranyl-diphosphate synthase, prenyltransferase, ... |
数据加载示例
python import pandas as pd
加载训练数据集
train_df = pd.read_parquet(Benchmark-Datasets-Train+Valid/Benchmark-I/Train.parquet) valid_df = pd.read_parquet(Benchmark-Datasets-Train+Valid/Benchmark-I/Valid.parquet)
显示前几行
print(train_df.head()) print(valid_df.head())
搜集汇总
数据集介绍

构建方式
在生物信息学领域,BioTalk数据集的构建旨在填补DNA序列与其功能描述之间的空白。该数据集通过整合来自UniProtKB/TrEMBL和UniProtKB/Swiss-Prot的训练和验证数据,形成了一系列基准数据集(Benchmark-I至Benchmark-IV)。每个基准数据集均包含平衡的训练和验证数据,其中Benchmark-III和Benchmark-IV特别针对EC编号进行了平衡处理,确保每种EC编号至少有10个示例。此外,测试数据集(test1.csv和test2.csv)分别从Benchmark-III和Benchmark-IV中提取,用于评估模型的泛化能力。
特点
BioTalk数据集的显著特点在于其多模态性质,结合了DNA序列和自然语言描述,为基因功能预测提供了丰富的信息源。该数据集不仅支持单模态模型的训练,还特别适用于多模态模型的开发,如利用预训练的transformer模型进行DNA序列嵌入的质量评估和EC编号的预测。此外,BioTalk还提供了零样本和少样本学习的基准,利用大型语言模型(如Llama 3)进行多模态预测,进一步提升了数据集的应用潜力。
使用方法
使用BioTalk数据集时,用户可以通过提供的链接下载数据,并使用Python和pandas库加载数据。例如,通过`pd.read_parquet`函数可以直接读取训练和验证数据。数据集的结构清晰,便于用户根据需要选择合适的基准数据集进行模型训练和验证。此外,数据集还附带了用于评估DNA序列嵌入质量和进行EC编号预测的Python脚本,用户可以根据这些脚本快速上手并进行相关实验。
背景与挑战
背景概述
BioTalk数据集由Hoarfrost实验室创建,旨在填补DNA序列与其功能描述之间关联的空白。该数据集通过整合DNA序列和自然语言描述,为酶功能的多模态预测提供了全面的基准。BioTalk的开发不仅促进了多模态模型的研究,还提升了基因组数据的解释性和实用性,对生物信息学和基因组学领域产生了深远影响。
当前挑战
BioTalk数据集在构建过程中面临多项挑战。首先,整合DNA序列与自然语言描述需要精确的数据对齐和标注,确保信息的准确性和一致性。其次,多模态数据的处理和分析要求高效的算法和计算资源,以应对大规模数据的复杂性。此外,数据集的平衡性和代表性也是关键问题,确保训练和验证数据能够全面反映实际应用场景。最后,如何利用多模态数据进行零样本和少样本学习,以提高模型在有限数据条件下的预测能力,是当前研究的重要方向。
常用场景
经典使用场景
在生物信息学领域,BioTalk数据集的经典使用场景主要集中在酶功能预测的多模态模型开发上。该数据集通过结合DNA序列和自然语言描述,为研究人员提供了一个独特的平台,用于训练和验证能够从基因序列中预测酶功能的模型。这种多模态方法不仅提高了预测的准确性,还增强了模型的解释能力,使其在基因组学研究中具有广泛的应用前景。
衍生相关工作
基于BioTalk数据集,研究人员开发了多种相关的经典工作。例如,利用该数据集进行DNA序列嵌入质量评估和酶委员会(EC)编号预测,这些工作不仅验证了数据集的有效性,还推动了多模态模型在生物信息学中的应用。此外,通过使用大型语言模型(LLM)进行零样本和少样本学习,进一步扩展了数据集的应用范围,为未来的研究提供了新的方向。
数据集最近研究
最新研究方向
在生物信息学领域,BioTalk数据集的最新研究方向主要集中在多模态预测酶功能上。该数据集通过结合DNA序列和自然语言描述,填补了现有资源中的关键空白。前沿研究不仅探索了如何利用预训练的Transformer模型进行DNA序列嵌入的质量评估,还开发了基于DNA嵌入的酶分类号(EC)预测模型。此外,研究者们正在利用大型语言模型(如Llama 3)进行多模态的零样本和少样本学习,以提高酶功能预测的准确性和效率。这些研究不仅提升了基因组数据的解释性和实用性,还为生物医学领域的广泛应用奠定了基础。
以上内容由遇见数据集搜集并总结生成



