UniEntrezDB

Name: UniEntrezDB
Creator: 德克萨斯大学阿灵顿分校计算机科学与工程系
Published: 2024-12-17 17:08:52
License: 暂无描述

arXiv2024-12-17 更新2024-12-19 收录

下载链接：

http://arxiv.org/abs/2412.12688v1

下载链接

链接失效反馈

官方服务：

资源简介：

UniEntrezDB是由德克萨斯大学阿灵顿分校计算机科学与工程系创建的一个大规模基因本体注释数据集，旨在通过统一的Entrez基因标识符整合来自多个数据库的公共基因本体注释（GOA）。该数据集包含超过1000个物种的手动注释GOA，涵盖了DNA、RNA和蛋白质等多种基因产品。数据集的创建过程包括从21个数据库中整合注释数据，并通过统一的基因标识符进行映射和整合。UniEntrezDB的应用领域广泛，主要用于基因研究、蛋白质结构预测、药物发现和癌症基因组学等领域，旨在提高基因研究中LLMs的可靠性和适用性。

UniEntrezDB is a large-scale Gene Ontology (GO) annotation dataset developed by the Department of Computer Science and Engineering, University of Texas at Arlington, which aims to integrate public Gene Ontology Annotations (GOA) from multiple databases using standardized Entrez gene identifiers. This dataset includes manually curated GOA for more than 1,000 species, covering diverse gene products such as DNA, RNA and proteins. The construction of UniEntrezDB involves integrating annotation data from 21 databases, followed by mapping and unification via standardized gene identifiers. UniEntrezDB has a wide range of applications, primarily being used in fields such as genetic research, protein structure prediction, drug discovery and cancer genomics, with the goal of enhancing the reliability and applicability of Large Language Models (LLMs) in genetic research.

提供机构：

德克萨斯大学阿灵顿分校计算机科学与工程系

创建时间：

2024-12-17

搜集汇总

数据集介绍

构建方式

UniEntrezDB数据集的构建旨在解决基因研究领域中基因标识符不统一的问题。该数据集通过整合来自21个不同数据库的公共基因本体注释（GOA），并使用统一的Entrez基因标识符，确保了基因及其产物功能的统一描述。数据集的构建过程包括从多个数据库中提取注释数据，并通过ID映射将这些数据统一到Entrez基因ID上，从而形成一个包含超过1000个物种的基因注释数据集。此外，数据集还包含了四个下游任务，用于评估基因嵌入模型在不同生物学层次上的表现。

特点

UniEntrezDB数据集的主要特点在于其统一性和多样性。首先，它通过使用统一的Entrez基因标识符，解决了基因命名不一致的问题，确保了数据的可比性和一致性。其次，数据集涵盖了广泛的物种和数据库，提供了丰富的基因注释信息，包括DNA、RNA和蛋白质的功能注释。此外，数据集还包含了手动审查的注释和自动生成的注释，确保了数据的可靠性和全面性。

使用方法

UniEntrezDB数据集可用于多种基因研究任务，包括基因功能预测、蛋白质-蛋白质相互作用预测、单细胞类型注释等。用户可以通过数据集提供的四个下游任务来评估基因嵌入模型的性能，这些任务涵盖了基因、蛋白质和细胞三个层次。此外，数据集还可以用于训练和验证新的基因嵌入模型，帮助研究人员更好地理解和利用基因本体注释信息，推动基因研究领域的发展。

背景与挑战

背景概述

基因研究在蛋白质结构预测、药物发现和癌症基因组学等领域具有重要意义，然而，这些研究面临着如何有效利用海量且多样化的基因信息这一挑战。基因研究需要高质量、事实准确的数据集以确保结果的可靠性。为此，德克萨斯大学阿灵顿分校的研究团队于2024年推出了UniEntrezDB数据集，该数据集首次系统性地整合了来自多个数据库的公共基因本体注释（GOA），并使用统一的基因标识符（Entrez Gene ID）进行标注。UniEntrezDB不仅为基因嵌入模型的性能评估提供了预训练数据集，还设计了四个下游任务，涵盖基因、蛋白质和细胞层面的评估，旨在提升大语言模型在基因研究中的应用效果。

当前挑战

UniEntrezDB数据集的构建面临多重挑战。首先，基因本体注释分散在多个数据库中，缺乏统一的基因标识符，导致数据整合困难。其次，基因研究领域存在大量同义词和历史名称，基因名称的模糊性增加了数据集构建的复杂性。此外，如何将大规模的基因本体注释数据有效整合到基础模型中，以提升其在实际应用中的表现，仍是一个亟待解决的问题。最后，尽管UniEntrezDB已经整合了多个数据库的注释，但仍有大量物种的注释数据未被完全覆盖，未来需要进一步扩展和标准化基因数据库。

常用场景

经典使用场景

UniEntrezDB数据集的经典使用场景主要集中在基因功能预测和基因嵌入模型的评估。通过整合来自多个数据库的基因本体注释（GOA），该数据集为基因、蛋白质和细胞层面的下游任务提供了丰富的训练和测试数据。例如，研究人员可以利用UniEntrezDB进行基因路径共现预测、功能基因相互作用预测、蛋白质-蛋白质相互作用预测以及单细胞类型注释等任务，从而全面评估基因嵌入模型的性能。

实际应用

UniEntrezDB数据集在实际应用中具有广泛的前景，特别是在生物医学研究和药物发现领域。例如，研究人员可以利用该数据集进行基因功能预测，帮助识别潜在的药物靶点；在癌症基因组学中，该数据集可用于分析基因与疾病之间的关联，辅助精准医疗的实施；此外，在单细胞RNA测序分析中，UniEntrezDB可用于细胞类型注释，提升对复杂生物系统的理解。

衍生相关工作

基于UniEntrezDB数据集，许多相关工作得以展开。例如，研究人员开发了多种基因嵌入模型，如Gene2Vec、DNAbert-2和OntoProtein，这些模型利用基因表达、序列信息和本体知识生成高质量的基因嵌入。此外，UniEntrezDB还启发了基于本体的强化学习框架，用于检测和修正大型语言模型中的事实错误。这些衍生工作进一步扩展了数据集的应用范围，推动了基因研究和人工智能的交叉领域发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集