GenoTEX
收藏GenoTEX
简介
GenoTEX 是一个用于评估和开发基于大型语言模型(LLM)的基因表达数据自动化分析方法的基准数据集。该数据集支持数据集选择、预处理和统计分析等任务。数据集中的代码和结果经过人类生物信息学家的精心注释,确保准确性和可靠性。
下载
文件结构
目录和文件
- code/: 包含用于基因表达数据预处理的 Jupyter 笔记本。每个特征都有其对应的子目录,包含特定数据集的笔记本,以队列 ID 命名。
statistics.py文件提供预处理数据的统计分析工具。 - preprocessed/: 包含按特征组织的预处理数据。每个特征子目录包含:
cohort_info.json: 存储手动数据过滤的结果和样本大小等元数据。gene_data/: 预处理基因数据的子目录。trait_data/: 预处理特征数据的子目录。
- output/: 包含每个特征的回归结果。每个子目录包含涉及相应特征的基因识别问题的结果,文件名基于特征-条件对。
使用方法
-
克隆仓库: sh git clone https://github.com/Liu-Hy/GenoTex.git cd GenoTex
-
安装依赖: Python python -m venv venv source venv/bin/activate pip install -r requirements.txt
-
运行代码: 导航到
code/目录并执行与感兴趣的特征和队列对应的 Jupyter 笔记本。 -
评估性能: 使用
eval.py比较自动化方法与提供的黄金标准结果的性能。
贡献
欢迎对 GenoTEX 进行贡献。请 fork 仓库,为您的功能或错误修复创建一个新的分支,并提交拉取请求。对于重大更改,请先打开一个问题以讨论您希望进行的更改。
引用
如果您在研究中使用 GenoTEX,请使用以下 BibTeX 条目引用我们的论文:
@article{liu2024genotex, title={GenoTEX: A Benchmark for Evaluating LLM-Based Exploration of Gene Expression Data in Alignment with Bioinformaticians}, author={Liu, Haoyang and Wang, Haohan}, journal={arXiv preprint arXiv:2406.15341}, year={2024} }
许可证
本项目基于 Creative Commons (CC) 许可证。

- 1GenoTEX: A Benchmark for Evaluating LLM-Based Exploration of Gene Expression Data in Alignment with Bioinformaticians伊利诺伊大学厄巴纳-香槟分校信息科学学院 · 2024年



