genept-composable-embeddings-source-data
收藏Hugging Face2025-01-14 更新2025-01-16 收录
下载链接:
https://huggingface.co/datasets/honicky/genept-composable-embeddings-source-data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集复现并扩展了GenePT项目的数据,使其更易于使用,并允许用户通过生成新的描述来增强现有的基础嵌入。数据集包含四个主要部分:NCBI摘要、NCBI-UniProt摘要、基因信息表和生成的描述。生成的描述部分使用了GPT-4o-mini模型,涵盖了相关基因、衰老相关信息、药物相互作用以及通路和生物过程等多个维度。数据来源包括NCBI基因数据库和UniProt数据库。
This dataset reproduces and expands the data from the GenePT project to improve usability, and enables users to enhance existing base embeddings by generating new descriptions. The dataset comprises four core components: NCBI summaries, NCBI-UniProt summaries, gene information tables, and generated descriptions. The generated description component was developed using the GPT-4o-mini model, covering multiple dimensions such as relevant genes, aging-related information, drug interactions, pathways and biological processes. The data sources include the NCBI Gene Database and the UniProt Database.
创建时间:
2025-01-13
搜集汇总
数据集介绍

构建方式
该数据集基于GenePT项目的研究成果,整合了来自NCBI和UniProt等权威数据库的基因描述信息,并通过GPT-4o-mini模型生成了多维度基因描述。数据以Parquet格式存储,包含NCBI摘要、NCBI-UniProt摘要、基因信息表以及AI生成的综合描述四个主要部分。这一构建方式不仅复现了GenePT项目的数据,还扩展了其应用范围,便于用户通过标准工具访问和使用。
使用方法
用户可通过标准工具加载Parquet格式的数据文件,快速访问NCBI摘要、NCBI-UniProt摘要、基因信息表及AI生成的综合描述。该数据集适用于基因功能分析、药物研发及生物通路研究等领域。用户可根据任务需求,灵活组合不同维度的嵌入数据,以优化特定任务的性能。此外,数据集的结构化设计便于进一步扩展和定制,满足多样化的研究需求。
背景与挑战
背景概述
GenePT-composable-embeddings-source-data数据集是基于GenePT项目的研究成果,旨在通过生成基因描述并嵌入同一空间,使用户能够跨维度组合嵌入以适用于特定任务。该数据集由Chen YT和Zou J于2023年提出,并在bioRxiv预印本中首次发布。数据集整合了来自NCBI和UniProt等多个数据库的基因信息,并通过GPT-4o-mini模型生成了多维度基因描述,涵盖调控通路、药物相互作用等领域。GenePT项目为基因和细胞研究提供了一个简单但有效的基础模型,推动了生物信息学领域的发展。
当前挑战
该数据集面临的挑战主要包括两个方面。首先,在领域问题方面,如何准确生成多维度基因描述并确保其科学性和实用性是一个重要挑战。基因功能的复杂性使得描述生成需要兼顾多个生物学维度,如调控通路、药物相互作用等,这对模型的泛化能力和领域知识提出了较高要求。其次,在数据构建过程中,整合来自不同数据库的基因信息并确保数据的一致性和完整性是一项复杂任务。此外,如何有效处理大规模数据并生成高质量的嵌入表示,也是构建过程中需要解决的技术难题。
常用场景
经典使用场景
在生物信息学领域,genept-composable-embeddings-source-data数据集被广泛应用于基因功能注释和基因表达分析。研究人员利用该数据集中的基因描述信息,结合嵌入技术,能够更精确地识别基因在不同生物过程中的作用。特别是在研究基因调控网络和药物相互作用时,该数据集提供了丰富的多维度描述,帮助研究者构建更为复杂的生物模型。
解决学术问题
该数据集解决了基因功能注释中的信息碎片化问题。通过整合NCBI、UniProt等权威数据库的基因描述信息,并结合AI生成的描述,研究者能够获得更为全面和准确的基因功能注释。这不仅提升了基因功能预测的准确性,还为基因与疾病关联研究提供了新的视角,推动了精准医学的发展。
实际应用
在实际应用中,该数据集被广泛用于药物研发和个性化医疗。通过分析基因与药物的相互作用信息,研究人员能够筛选出潜在的药物靶点,优化药物设计。此外,该数据集还为临床医生提供了基因与疾病关联的参考信息,帮助制定个性化的治疗方案,提升治疗效果。
数据集最近研究
最新研究方向
在生物信息学领域,基因数据的嵌入表示和描述生成正成为研究热点。`genept-composable-embeddings-source-data`数据集通过整合NCBI和UniProt等权威数据库的基因信息,并结合GPT-4o-mini模型生成的多维度基因描述,为基因功能注释和跨维度嵌入提供了新的研究工具。该数据集不仅复现了GenePT项目的研究成果,还扩展了基因描述的多维度生成能力,如调控通路、药物相互作用等。这一进展为基因功能预测、药物靶点发现以及个性化医疗等前沿研究方向提供了强有力的数据支持,推动了基因嵌入表示在生物医学领域的应用。
以上内容由遇见数据集搜集并总结生成



