multiple model organism genomes, UniProt [multispecies], Swiss-Prot/TrEMBL, s2orc/biology paper, GLUE/convert, lucaone/convert, UniProt function

github2024-11-30 更新2024-12-06 收录

下载链接：

https://github.com/maris205/llama-gene

下载链接

链接失效反馈

官方服务：

资源简介：

多个模型生物的基因组数据，包括DNA和蛋白质序列，以及自然语言文本。这些数据集用于训练和微调基因任务的大型语言模型。

Genomic data of multiple model organisms, including DNA and protein sequences, as well as natural language texts. These datasets are used for training and fine-tuning large language models (LLMs) for genomic tasks.

创建时间：

2024-11-26

原始信息汇总

llama-gene 数据集概述

数据集简介

llama-gene 是一个基于指令微调的通用基因任务大型语言模型。该模型扩展了 LLaMA 大语言模型的能力，使其能够处理基因语言，包括 DNA 和蛋白质序列。通过使用 Byte Pair Encoding (BPE) 方法扩展词汇表，并在这些序列上进行进一步的预训练，模型能够处理多种下游基因任务。

数据集组成

阶段	数据集名称	数据量	数据类型
BPE 训练	多个模式生物基因组	1G	DNA
BPE 训练	UniProt [多物种]	1G	蛋白质序列
继续训练	多个模式生物基因组	16G	DNA
继续训练	Swiss-Prot/TrEMBL	16G	蛋白质序列
继续训练	s2orc/生物学论文	16G	自然语言
指令微调	GLUE/转换	100M	DNA 下游任务
指令微调	lucaone/转换	100M	蛋白质下游任务
指令微调	UniProt 功能	300M	蛋白质翻译

训练策略

基础模型

使用 HF 格式的 LLaMA 早期测试版本模型进行训练。

分词

使用 BPE 方法训练 DNA 和蛋白质序列的词汇表，并将其合并到原始 LLaMA 词汇表中，最终词汇表大小约为 91,000 词。

预训练

采用 LoRA 方法进行训练，使用 PEFT 框架，训练约 10% 的参数。在 8 卡 L20 服务器上，使用 16GB 数据进行训练约需一周时间。

指令微调

将典型的基因序列分析任务转换为指令微调数据格式进行微调。

实验结果

任务	序列类型	llama-gene	SOTA
分类	DNA	0.83	0.84
分类	蛋白质	0.64	0.72
结构预测	DNA	0.81	0.85
结构预测	蛋白质	0.73	0.85
多序列	DNA+DNA	0.66	0.78
多序列	蛋白质+蛋白质	0.63	0.87
多序列	DNA+蛋白质	0.71	0.91
功能预测	DNA	0.76	0.81
功能预测	蛋白质	0.71	0.81
回归任务	DNA	0.83	0.87
回归任务	蛋白质	0.82	0.86

搜集汇总

数据集介绍

构建方式

在构建convert, UniProt function数据集时，研究团队采用了指令微调的方法，将多种下游基因任务数据转换为统一格式。具体而言，通过使用不同的提示模板，将蛋白质和DNA分类任务、蛋白质-蛋白质相互作用任务以及蛋白质-DNA关联任务等转换为一致的指令数据。随后，利用这些指令数据对预训练模型进行进一步微调，从而生成llama-gene模型。此过程不仅扩展了LLaMA大语言模型的词汇表，还通过Byte Pair Encoding (BPE)方法专门针对DNA和蛋白质序列进行了词汇扩展和预训练。

特点

convert, UniProt function数据集的主要特点在于其多语言处理能力，能够同时处理自然语言和DNA序列。此外，该数据集通过BPE方法扩展了词汇表，使其能够更有效地处理蛋白质翻译任务。数据集的构建还涉及对多种模型生物基因组和蛋白质序列的训练，确保了数据的高质量和广泛性。最终，通过指令微调，该数据集在基因分类和基因序列相互作用等任务中达到了与当前最先进技术相媲美的效果。

使用方法

使用convert, UniProt function数据集时，首先需要下载并安装相应的预训练模型，如llama-dna或llama-gene模型。接着，用户可以通过提供的脚本文件（如run_pt.sh和run_sft.sh）进行预训练和指令微调。在训练过程中，建议使用PEFT框架以减少计算成本，并参考llama-chinese的参数设置。完成训练后，用户可以利用该模型进行基因序列分析、蛋白质翻译等任务，并通过实验结果验证模型的性能。

背景与挑战

背景概述

在基因大语言模型的研究领域，构建类似于ChatGPT的通用任务模型一直是一个重要的研究方向。现有的指令微调主要基于自然语言，而自然语言与DNA序列在分词和编码上存在显著差异。因此，构建一个能够处理自然语言和DNA序列的多语言模型对于解决这一问题至关重要。本研究通过扩展LLaMA大语言模型的能力，使其包含基因语言，具体方法包括使用Byte Pair Encoding (BPE)方法扩展词汇，并针对DNA和蛋白质序列进行进一步的预训练。随后，将各种下游基因任务数据转换为统一格式进行指令微调，从而创建了一个混合模型，该模型在基因分类和基因序列交互等任务中取得了与当前最先进技术（SOTA）相当的结果。

当前挑战

构建这一数据集面临的主要挑战包括：首先，自然语言与DNA序列在分词和编码上的差异需要创新的方法来统一处理，这涉及到词汇扩展和预训练的复杂性。其次，由于LLaMA模型的参数数量庞大，从7B到405B不等，进行全参数连续预训练的成本极高，因此采用了LoRA方法和PEFT框架来优化训练过程。此外，将各种基因序列任务转换为一致的指令数据格式也是一个技术难题，需要设计不同的提示模板来确保数据的一致性和有效性。最后，尽管混合模型在多个任务中表现出色，但与SOTA相比仍存在一定差距，尤其是在蛋白质分类和结构预测任务中，这表明在模型性能和任务适应性方面仍有改进空间。

常用场景

经典使用场景

在基因研究领域，convert, UniProt function数据集的经典使用场景主要体现在基因功能预测和蛋白质翻译任务中。该数据集通过整合来自UniProt的多物种蛋白质序列信息，为研究人员提供了一个丰富的资源库，用于训练和验证基因功能预测模型。通过将这些蛋白质序列转换为统一的指令数据格式，研究人员能够利用LLaMA模型进行精细调优，从而在基因分类和基因序列交互等任务中取得接近当前最先进水平的结果。

实际应用

在实际应用中，convert, UniProt function数据集被广泛用于生物信息学和基因工程领域。例如，研究人员可以利用该数据集训练的模型进行蛋白质功能预测，从而加速新药研发和生物标志物的发现。此外，该数据集还可用于基因编辑和合成生物学中，帮助科学家设计更有效的基因编辑工具和合成基因网络。通过这些应用，该数据集显著推动了基因研究和生物技术的发展。

衍生相关工作

convert, UniProt function数据集的发布催生了一系列相关研究工作。例如，基于该数据集的预训练模型，研究人员开发了多种基因和蛋白质序列分析工具，如基因分类器和蛋白质结构预测模型。此外，该数据集还启发了对混合语言模型的进一步研究，探索如何更有效地结合自然语言和基因语言。这些衍生工作不仅丰富了基因研究的工具库，还为未来的基因大语言模型研究奠定了基础。

以上内容由遇见数据集搜集并总结生成