GV-Rep
收藏GV-Rep 数据集概述
数据集描述
GV-Rep 数据集是为学术研究设计的,包含约700万条GV记录,具有详细的注释和一个经过临床医生验证的数据集。该数据集支持深度学习模型在不同特征和上下文中学习GV表示。
硬件要求
- 数据集下载:需要30GB的磁盘空间。
- 模型微调:推荐使用GPU V100或更高性能的GPU。
数据集下载
数据集可以从Zenodo仓库手动下载,也可以通过以下脚本自动下载: bash python download_data.py
下载后,数据应保存在genomic-FM/root/data目录中。
数据访问
以下代码片段展示了如何加载不同类型的数据集: python from src.dataloader.data_wrapper import ( RealClinVar, OligogenicDataWrapper, MAVEDataWrapper, GWASDataWrapper, ClinVarDataWrapper, GeneKoDataWrapper, CellPassportDataWrapper, eQTLDataWrapper, sQTLDataWrapper )
NUM_RECORDS = 1000 ALL_RECORDS = False SEQ_LEN = 20
示例代码展示了如何加载不同类型的数据
data_loader = RealClinVar(num_records=NUM_RECORDS, all_records=ALL_RECORDS) data = data_loader.get_data(Seq_length=SEQ_LEN) print(data)
实验复现
模型微调
确保有一块GPU可用,并定义配置文件(如finetune_dnabert2.yaml),然后运行以下脚本进行模型微调:
bash
wandb offline # 如果GPU无法访问互联网
python finetune.py --dataset=sqtl_pval_dnabert2 --epochs=100 --gpus=1 --num_workers=8 --config=configs/finetune_dnbert2.yaml --seed=0 --project=GV-Rep
遗传变异索引
定义配置文件(如indexing.yaml),然后使用以下代码片段进行遗传变异索引:
python
from src.variants_vector_index.vector_loader import VectorLoader
import numpy as np
import time
vec_loader = VectorLoader(dataset=clinvar_CLNSIG_hyena-tiny,checkpoint=Run-GFM/luxnk59q/checkpoints/epoch=99-step=431100.ckpt)
query_vector = vec_loader.vectors[1] query_vector_label = vec_loader.labels[1] start_time = time.time() distances, result_labels, indices = vec_loader.query_vectors(query_vector, k=20) end_time = time.time() query_time = end_time - start_time
print(f"Query vector label: {query_vector_label}") print(f"Distances: {distances}") print(f"Result labels: {result_labels}") print("========================") print(f"Query vector size: {query_vector.shape}") print(f"Query time: {query_time} seconds")
许可证
GV-Rep 数据集遵循CC BY-NC-SA许可证。用户必须遵循子数据集的原始许可证,大部分子数据集遵循CC或CC0许可证,而Cancer Dependency Map数据仅用于教育用途。
- ClinVar: CC0 1.0 license
- GTEx: Creative Commons licenses
- MAVEDB: CC BY-NC-SA 4.0
- GWAS: CC0 1.0 license
- OLIDA: CC BY-NC-SA 4.0

- 1GV-Rep: A Large-Scale Dataset for Genetic Variant Representation Learning帝国理工学院 · 2024年



