GenoTEX

Name: GenoTEX
Creator: 伊利诺伊大学厄巴纳-香槟分校信息科学学院
Published: 2024-06-22 01:55:24
License: 暂无描述

arXiv2024-06-22 更新2024-06-25 收录

下载链接：

https://github.com/Liu-Hy/GenoTex

下载链接

链接失效反馈

官方服务：

资源简介：

GenoTEX是由伊利诺伊大学厄巴纳-香槟分校信息科学学院创建的一个基因表达数据分析基准数据集，包含超过700条记录，旨在自动化探索基因表达数据，解决基因识别问题。数据集通过详细的代码和结果注释，确保了分析的准确性和可靠性。创建过程中，专业的生物信息学家依据标准化的分析流程进行数据处理和分析。GenoTEX的应用领域广泛，主要用于支持疾病相关基因的自动化识别，提高基因数据分析的效率和准确性，解决生物信息学中的重复性劳动和高成本问题。

GenoTEX is a benchmark dataset for gene expression data analysis, developed by the School of Information Sciences at the University of Illinois Urbana-Champaign. It contains over 700 records, and is aimed at automating the exploration of gene expression data and solving gene identification problems. The dataset ensures the accuracy and reliability of analyses through detailed annotations of codes and analysis results. During its creation, professional bioinformaticians conducted data processing and analysis in accordance with standardized analytical workflows. GenoTEX has a wide range of application scenarios, which are mainly used to support the automated identification of disease-related genes, improve the efficiency and accuracy of gene data analysis, and address the issues of repetitive labor and high costs in bioinformatics.

提供机构：

伊利诺伊大学厄巴纳-香槟分校信息科学学院

创建时间：

2024-06-22

原始信息汇总

GenoTEX

简介

GenoTEX 是一个用于评估和开发基于大型语言模型（LLM）的基因表达数据自动化分析方法的基准数据集。该数据集支持数据集选择、预处理和统计分析等任务。数据集中的代码和结果经过人类生物信息学家的精心注释，确保准确性和可靠性。

下载

文件结构

目录和文件

code/: 包含用于基因表达数据预处理的 Jupyter 笔记本。每个特征都有其对应的子目录，包含特定数据集的笔记本，以队列 ID 命名。statistics.py 文件提供预处理数据的统计分析工具。
preprocessed/: 包含按特征组织的预处理数据。每个特征子目录包含：
- cohort_info.json: 存储手动数据过滤的结果和样本大小等元数据。
- gene_data/: 预处理基因数据的子目录。
- trait_data/: 预处理特征数据的子目录。
output/: 包含每个特征的回归结果。每个子目录包含涉及相应特征的基因识别问题的结果，文件名基于特征-条件对。

使用方法

克隆仓库: sh git clone https://github.com/Liu-Hy/GenoTex.git cd GenoTex
安装依赖: Python python -m venv venv source venv/bin/activate pip install -r requirements.txt
运行代码: 导航到 code/ 目录并执行与感兴趣的特征和队列对应的 Jupyter 笔记本。
评估性能: 使用 eval.py 比较自动化方法与提供的黄金标准结果的性能。

贡献

欢迎对 GenoTEX 进行贡献。请 fork 仓库，为您的功能或错误修复创建一个新的分支，并提交拉取请求。对于重大更改，请先打开一个问题以讨论您希望进行的更改。

引用

如果您在研究中使用 GenoTEX，请使用以下 BibTeX 条目引用我们的论文：

@article{liu2024genotex, title={GenoTEX: A Benchmark for Evaluating LLM-Based Exploration of Gene Expression Data in Alignment with Bioinformaticians}, author={Liu, Haoyang and Wang, Haohan}, journal={arXiv preprint arXiv:2406.15341}, year={2024} }

许可证

本项目基于 Creative Commons (CC) 许可证。

搜集汇总

数据集介绍

构建方式

GenoTEX数据集的构建基于对基因表达数据的自动化探索，旨在解决与疾病相关的基因识别问题。数据集的构建过程遵循计算基因组学的标准，涉及数据集选择、预处理和统计分析三个主要步骤。数据集的选择基于公共数据库中的基因表达和临床数据，并由生物信息学家团队手动进行。为了确保准确性和可靠性，每个问题由两名研究人员独立分析，并由经验丰富的专家进行裁决。GenoTEX数据集提供了详细的代码和结果注释，为自动基因表达数据分析方法的评估和发展提供了宝贵的资源。

特点

GenoTEX数据集具有以下特点：1. 包含丰富的基因识别问题，涵盖了各种疾病和条件；2. 提供了详细的数据预处理和统计分析流程，包括代码和结果注释；3. 由人类生物信息学家团队手动分析，确保了数据集的准确性和可靠性；4. 定义了三个挑战性任务：数据集选择、数据预处理和统计分析，并提供了相应的评估指标。

使用方法

GenoTEX数据集的使用方法如下：1. 下载数据集：访问https://github.com/Liu-Hy/GenoTex下载GenoTEX数据集；2. 读取数据集：使用提供的代码和指南文件读取和分析数据集；3. 进行评估：使用定义的指标评估自动基因表达数据分析方法的性能；4. 开发和改进：基于GenoTEX数据集的结果，开发更先进的自动分析方法，并不断改进现有方法。

背景与挑战

背景概述

在生物医学研究中，基因分析对于理解生物机制和推进临床应用至关重要，如疾病标记识别和个性化医疗。随着下一代测序等技术的进步，转录组数据量激增。尽管基因数据分析具有科学价值，但这些任务通常重复、劳动密集且容易出错。GenoTEX数据集的创建旨在解决这一问题，通过自动探索基因表达数据，涉及数据集选择、预处理和统计分析等任务。GenoTEX提供了由人类生物信息学家精心分析的广泛基因识别问题的注释代码和结果，以确保准确性和可靠性。该数据集由伊利诺伊大学香槟分校信息科学学院的Haoyang Liu和Haohan Wang创建，旨在支持对LLM-based方法进行评估和开发，以自动化这些任务。GenoTEX为基因数据分析提供了基准，推动了相关领域的发展。

当前挑战

GenoTEX数据集面临的主要挑战包括：1) 数据集选择和过滤的挑战，需要准确判断数据集的相关性和质量；2) 数据预处理的挑战，包括基因数据预处理、特征提取和缺失值处理等；3) 统计分析的挑战，需要选择合适的模型和参数，并进行解释和验证。此外，GenoTEX还面临着LLM-based方法在处理复杂生物信息学任务时的局限性，例如缺乏灵活的规划和调试机制，以及难以处理数据异常等问题。

常用场景

经典使用场景

GenoTEX数据集最经典的使用场景是用于评估和开发基于大型语言模型（LLM）的基因表达数据分析方法。该数据集提供了一个全面的基因表达数据分析流程，包括数据集选择、预处理和统计分析。它包含了由人类生物信息学家精心分析的数据集，以及相应的代码和结果，以确保准确性和可靠性。通过使用GenoTEX数据集，研究者可以评估LLM在基因数据探索方面的潜力，并为基因组学研究提供有价值的基准。

衍生相关工作

GenoTEX数据集衍生了GenoAgents，这是一组基于LLM的智能体，旨在模拟生物信息学家的行为，共同探索基因数据。GenoAgents采用了一种协作工作流程，包括上下文感知规划、迭代校正和领域专家咨询。实验结果表明，GenoAgents在基因表达数据分析方面具有很好的整体准确性，证明了将LLM集成到基因组学研究中的潜力。GenoTEX数据集和GenoAgents的提出为基因组学研究提供了新的工具和方法，有助于推动该领域的进一步发展。

数据集最近研究