GenomeQA
收藏GenomeQA数据集概述
数据集基本信息
- 数据集名称: GenomeQA
- 最后更新日期: 2025年12月30日
数据集简介
GenomeQA是一个基准测试,旨在为通用大语言模型在基于序列的基因组推理任务上提供一个受控的评估环境。
数据集内容与结构
数据集完整包含在项目的benchmark/文件夹中,无需外部下载。
项目结构:
GenomeQA/ ├── benchmark/ # 基准测试数据文件 │ ├── binary/ # 二元选择题 │ └── mcq/ # 多项选择题 ├── scripts/ # 用于批量处理的Shell脚本 ├── run.py # 主推理脚本 ├── random_baseline.py # 随机基线生成器 ├── calc_metrics.py # 指标计算脚本 ├── collect_res.py # 结果收集脚本 ├── requirements.txt # Python依赖项 └── README.md # 说明文件
数据文件格式
基准测试数据文件位于benchmark/{question_type}/{task}.jsonl路径下,其中question_type为问题类型(binary或mcq)。
使用方式
运行推理
使用scripts/文件夹中的run_xx.sh脚本在基准测试数据上运行推理,例如:
bash
bash scripts/run_Llama4.sh
运行随机基线
生成随机基线预测: bash python random_baseline.py
该脚本将:
- 从
benchmark/{question_type}/{task}.jsonl读取所有基准测试文件 - 为每个样本生成随机预测
- 将结果保存到
output/random/{question_type}/{task}/{task}_{id}.jsonl
收集结果
计算评估指标并汇总所有模型在所有任务上的结果: bash bash scripts/calc_and_collect.sh
该脚本将:
- 计算所有模型和任务的指标
- 收集每种问题类型(binary和mcq)的结果
- 生成CSV摘要文件
注意: 需要根据您的设置修改脚本中的model_list和output_root变量。

- 1GenomeQA: Benchmarking General Large Language Models for Genome Sequence Understanding香港科技大学·广州; 香港大学; 北京大学 · 2026年



