PerturbQA

github2025-03-04 更新2025-03-05 收录

下载链接：

https://github.com/Genentech/PerturbQA

下载链接

链接失效反馈

官方服务：

资源简介：

PerturbQA是一个通过语言上下文化生物扰动实验的数据集。

PerturbQA is a dataset of biological perturbation experiments contextualized via language.

创建时间：

2025-02-22

原始信息汇总

PerturbQA数据集概述

基本信息

数据集名称: PerturbQA
相关论文: Contextualizing biological perturbation experiments through language
会议: The Thirteenth International Conference on Learning Representations (ICLR 2025)
作者: Menghua Wu, Russell Littman, Jacob Levine, Lin Qiu, Tommaso Biancalani, David Richmond, Jan-Christian Huetter

数据集内容

主要功能: 提供生物扰动实验的输入和标签对
数据类型:
- 差异表达数据 (Differential expression)
- 变化方向数据 (Direction of change)
- 基因集富集数据 (Gene set enrichment)
- 知识图谱数据 (Knowledge graph)

数据加载方式

python from pertqa import load_de, load_dir, load_gse

差异表达数据

data_de = load_de("k562") # 可选: "k562", "rpe1", "hepg2", "jurkat", "k562_set"

变化方向数据

data_dir = load_dir("k562")

基因集富集数据

data_gse = load_gse("pert", skip_empty=True) # 可选: "pert", "gene"

评估方法

python from pertqa import auc_per_gene, rouge1_recall, bert_score

差异表达/变化方向评估

auc = auc_per_gene(keys, pred, true)

基因集富集评估 (ROUGE-1召回)

score = rouge1_recall(pred, true)

基因集富集评估 (BERTScore)

scores = bert_score(pred, true)

附加材料

知识图谱: 需从数据分发下载kg.zip
LLM输出: 包含在数据分发的以下文件中:
- summer_outputs.zip
- llm-nocot.zip
- llm-noretrieve.zip

数据来源与许可

核心数据集许可: CC BY 4.0
衍生数据集来源:
- DE/Dir数据: 来自Cell (2022)和bioRxiv (2024)研究
- 知识图谱数据: 来自UniProt, Ensembl, Gene Ontology, CORUM, STRINGDB, Reactome, Bioplex
特别许可说明: CORUM数据库使用CC BY NC 4.0许可

代码许可

代码库许可: Genentech Non-Commercial Software License Version 1.0

搜集汇总

数据集介绍

构建方式

PerturbQA数据集的构建是基于对生物学扰动实验的语境化处理。该数据集通过整合基因表达扰动、基因集富集以及知识图谱等信息，形成了包含输入和标签对的训练与测试集，旨在为语言模型提供生物学领域的高质量训练材料。

特点

PerturbQA数据集的特点在于其全面覆盖了不同细胞系的基因表达数据，包括k562、rpe1、hepg2、jurkat等，以及对应的基因集富集分析结果。数据集还提供了处理过的知识图谱和模型预测结果，便于研究者深入挖掘生物学扰动实验的上下文信息。

使用方法

使用PerturbQA数据集时，用户可以通过提供的加载函数轻松获取微分表达和变化方向的数据集，以及基因集富集分析的数据。此外，数据集还支持ROUGE和BERT评分，以便于评估模型的表现。用户需根据自身需求安装必要的依赖包，并遵循数据使用条款。

背景与挑战

背景概述

PerturbQA数据集是一项旨在通过语言对生物学扰动实验进行背景化的研究。该数据集由Menghua Wu等研究人员于2025年创建，并在第十三届国际学习表征会议上发表。其主要研究问题是将生物学的扰动实验与自然语言处理相结合，以实现对基因表达调控的深入理解。PerturbQA数据集的构建对于推动表型组学到基因组学的转化研究具有重要的科学价值，对相关领域产生了显著的影响。

当前挑战

PerturbQA数据集面临的挑战主要在于：1) 数据集构建过程中，如何准确地将生物学实验的扰动信息转化为自然语言描述，并确保其与基因表达调控的对应关系；2) 在所解决的领域问题中，如何利用自然语言处理技术有效地从文本中提取出扰动实验的差异性表达和变化方向信息，以及基因集富集分析的结果。此外，构建过程中还涉及到了如何整合多源异构的生物信息学数据，以及如何设计适用于该数据集的评价指标和基准模型等挑战。

常用场景

经典使用场景

PerturbQA数据集作为生物扰动实验语境化的工具，其经典使用场景在于为研究人员提供了一种新的途径，以自然语言处理技术来理解和分析基因扰动实验的结果。通过该数据集，研究人员能够将实验数据与生物学知识结合起来，从而对基因功能进行深入探究。

实际应用

在实际应用中，PerturbQA数据集可以辅助药物开发、疾病机理研究以及生物工程等领域。它通过提供详尽的基因扰动信息，帮助科研人员更好地理解基因如何响应外界扰动，这对于疾病的诊断、治疗以及新药的设计都具有重要意义。

衍生相关工作

基于PerturbQA数据集，已经衍生出了一系列相关工作，包括但不限于对生物扰动实验结果的预测模型、基因功能的自动化注释工具以及生物信息学的教育材料。这些相关工作进一步扩展了PerturbQA的应用范围，促进了生物医学研究的进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集