GV-Rep

Name: GV-Rep
Creator: 帝国理工学院
Published: 2024-07-24 10:20:29
License: 暂无描述

arXiv2024-07-24 更新2024-07-26 收录

下载链接：

https://github.com/bowang-lab/genomic-FM

下载链接

链接失效反馈

官方服务：

资源简介：

GV-Rep是一个大规模的遗传变异数据集，由帝国理工学院和Vector Institute等机构创建，旨在支持深度学习模型在遗传变异表示学习中的应用。数据集包含超过750万条记录，涵盖多种特征、疾病、组织类型和实验上下文。创建过程中，数据集从七个领先的公共遗传变异数据库中收集并标准化格式，每条记录标记有特定的变异特征。GV-Rep的应用领域主要集中在遗传疾病的诊断和治疗，通过提供丰富的数据支持，帮助模型更准确地分类和索引未知遗传变异。

GV-Rep is a large-scale genetic variation dataset developed by institutions including Imperial College London and the Vector Institute, which is designed to support the application of deep learning models in genetic variation representation learning. The dataset contains over 7.5 million records, covering diverse features, diseases, tissue types and experimental contexts. During its development, the dataset was collected and standardized from seven leading public genetic variation databases, with each record annotated with specific variation features. The main application scenarios of GV-Rep focus on the diagnosis and treatment of genetic diseases, providing abundant data support to help models more accurately classify and index unknown genetic variations.

提供机构：

帝国理工学院

创建时间：

2024-07-24

原始信息汇总

GV-Rep 数据集概述

数据集描述

GV-Rep 数据集是为学术研究设计的，包含约700万条GV记录，具有详细的注释和一个经过临床医生验证的数据集。该数据集支持深度学习模型在不同特征和上下文中学习GV表示。

硬件要求

数据集下载：需要30GB的磁盘空间。
模型微调：推荐使用GPU V100或更高性能的GPU。

数据集下载

数据集可以从Zenodo仓库手动下载，也可以通过以下脚本自动下载： bash python download_data.py

下载后，数据应保存在genomic-FM/root/data目录中。

数据访问

以下代码片段展示了如何加载不同类型的数据集： python from src.dataloader.data_wrapper import ( RealClinVar, OligogenicDataWrapper, MAVEDataWrapper, GWASDataWrapper, ClinVarDataWrapper, GeneKoDataWrapper, CellPassportDataWrapper, eQTLDataWrapper, sQTLDataWrapper )

NUM_RECORDS = 1000 ALL_RECORDS = False SEQ_LEN = 20

示例代码展示了如何加载不同类型的数据

data_loader = RealClinVar(num_records=NUM_RECORDS, all_records=ALL_RECORDS) data = data_loader.get_data(Seq_length=SEQ_LEN) print(data)

实验复现

模型微调

确保有一块GPU可用，并定义配置文件（如finetune_dnabert2.yaml），然后运行以下脚本进行模型微调： bash wandb offline # 如果GPU无法访问互联网 python finetune.py --dataset=sqtl_pval_dnabert2 --epochs=100 --gpus=1 --num_workers=8 --config=configs/finetune_dnbert2.yaml --seed=0 --project=GV-Rep

遗传变异索引

定义配置文件（如indexing.yaml），然后使用以下代码片段进行遗传变异索引： python from src.variants_vector_index.vector_loader import VectorLoader import numpy as np import time

vec_loader = VectorLoader(dataset=clinvar_CLNSIG_hyena-tiny,checkpoint=Run-GFM/luxnk59q/checkpoints/epoch=99-step=431100.ckpt)

query_vector = vec_loader.vectors[1] query_vector_label = vec_loader.labels[1] start_time = time.time() distances, result_labels, indices = vec_loader.query_vectors(query_vector, k=20) end_time = time.time() query_time = end_time - start_time

print(f"Query vector label: {query_vector_label}") print(f"Distances: {distances}") print(f"Result labels: {result_labels}") print("========================") print(f"Query vector size: {query_vector.shape}") print(f"Query time: {query_time} seconds")

许可证

GV-Rep 数据集遵循CC BY-NC-SA许可证。用户必须遵循子数据集的原始许可证，大部分子数据集遵循CC或CC0许可证，而Cancer Dependency Map数据仅用于教育用途。

ClinVar: CC0 1.0 license
GTEx: Creative Commons licenses
MAVEDB: CC BY-NC-SA 4.0
GWAS: CC0 1.0 license
OLIDA: CC BY-NC-SA 4.0

搜集汇总

数据集介绍

构建方式

GV-Rep数据集的构建方式是基于对现有遗传变异(GV)数据的大规模整合，并辅以基因敲除实验数据和临床验证的GV数据。数据集从七个主要的公共GV数据库中收集数据，包括ClinVar、Cell Passport、Project Score、GTEx eQTLs、GTEx sQTLs、GWAS Catalog、MAVEDB和OLIDA。这些数据涵盖了广泛的GV效应研究，包括细胞和组织特异性上下文。在数据清洗、序列提取和统一格式化后，GV记录被标准化并用于基因基础模型(GFMs)的训练和推理。

使用方法

GV-Rep数据集的使用方法主要包括对GFMs的微调和推理。微调过程涉及使用数据集中的标注记录来训练GFMs，以便它们能够生成具有意义的向量表示。这些向量表示可以用于对未知GV进行分类，或者使用向量数据库工具（如FAISS）进行搜索和索引。通过这种方式，GV-Rep数据集支持了GV的表示学习和索引，为临床医生提供了强大的工具，以更有效地解释和管理GV数据。

背景与挑战

背景概述

遗传变异（GVs）是指个体之间DNA序列的差异，在诊断和治疗遗传疾病中起着至关重要的作用。随着下一代测序成本的迅速降低，患者级别的GV数据呈指数级增长。这为临床医生带来了挑战，他们必须有效地优先考虑患者特定的GV，并将它们与现有的基因组数据库相结合，以指导患者管理。为了解决GV的解释问题，基因组基础模型（GFMs）已经出现。然而，这些模型缺乏标准化的性能评估，导致模型评估的差异性很大。这引发了一个问题：深度学习方法如何有效地对未知的GV进行分类，并将它们与临床验证的GV对齐？我们认为，表示学习，即把原始数据转化为有意义的特征空间，是解决索引和分类挑战的有效方法。我们引入了一个名为GV-Rep的大规模遗传变异数据集，具有可变长度的上下文和详细的注释，旨在使深度学习模型能够学习GV在各种特征、疾病、组织类型和实验环境中的表示。我们的贡献有三点：1) 构建了一个包含750万条记录的全面数据集，每条记录都标注了相应变异的特征，以及来自1,107种细胞类型、1,808种变异组合和156种独特的临床验证GV的额外数据。2) 分析了数据集的结构和属性。3) 使用预训练的基因组基础模型（GFMs）对数据集进行了实验。结果表明，GFMs的当前能力与GV的准确表示之间存在显著差距。我们希望这个数据集能够推动基因组深度学习的发展，以弥合这一差距。

当前挑战

GV-Rep数据集面临的挑战包括：1) 所解决的领域问题，即GV的准确表示和分类。2) 构建过程中所遇到的挑战，包括数据清洗、序列提取、统一格式化以及与预训练的GFMs的兼容性。此外，数据集的多样性和复杂性也需要进一步的研究和探索，以更好地支持深度学习模型的学习和预测。

常用场景

经典使用场景

GV-Rep数据集适用于深度学习模型，用于学习基因变异（GVs）的表征。该数据集包含7百万条记录，每条记录都标注了相应变异的特征，并提供了来自17,548个基因敲除实验的数据，这些实验跨越了1,107种细胞类型、1,808种变异组合和156种独特的临床验证GVs。此外，数据集还包含了来自真实世界患者的临床验证GVs，为深度学习模型提供了丰富的学习资源。

解决学术问题

GV-Rep数据集解决了现有基因组数据集在规模、多样性和复杂性方面的不足。该数据集为深度学习模型提供了全面的GV表征学习工具，可以用于更准确的分类和索引。此外，GV-Rep数据集还提供了对GVs下游效应的深入分析，为个性化医疗和缓解临床医生工作压力提供了重要的数据支持。

实际应用

GV-Rep数据集的实际应用场景包括临床遗传变异的诊断和治疗。该数据集可以帮助临床医生有效地优先排序患者特定的GVs，并将其与现有的基因组数据库相结合，以指导患者管理。此外，GV-Rep数据集还可以用于预测基因变异的影响，包括对疾病的影响、表型变异、基因表达变化和细胞活力的影响。

数据集最近研究