DART-Eval

Name: DART-Eval
Creator: 斯坦福大学
Published: 2024-12-07 05:23:35
License: 暂无描述

arXiv2024-12-07 更新2024-12-11 收录

下载链接：

https://github.com/kundajelab/DART-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

DART-Eval是由斯坦福大学开发的一个全面的DNA语言模型评估基准，专注于调控DNA。该数据集包含230万条调控DNA序列，旨在评估DNA语言模型在零样本、探针和微调设置下的性能。数据集的创建过程包括从ENCODE项目中精选的cis-调控元件（cCREs）和通过保持二核苷酸频率生成的合成负样本。DART-Eval的应用领域包括序列基序发现、细胞类型特异性调控活性预测和调控遗传变异的反事实预测，旨在解决调控DNA序列的复杂性问题。

DART-Eval is a comprehensive evaluation benchmark for DNA language models developed by Stanford University, focusing on regulatory DNA. This dataset contains 2.3 million regulatory DNA sequences, designed to assess the performance of DNA language models across zero-shot, probe-based, and fine-tuning settings. The dataset is constructed using curated cis-regulatory elements (cCREs) from the ENCODE Project and synthetic negative samples generated by preserving dinucleotide frequencies. Applications of DART-Eval cover sequence motif discovery, cell type-specific regulatory activity prediction, and counterfactual prediction of regulatory genetic variants, aiming to address the complexity of regulatory DNA sequences.

提供机构：

斯坦福大学

创建时间：

2024-12-07

搜集汇总

数据集介绍

构建方式

DART-Eval数据集通过精心设计的五组任务，涵盖了从序列基序发现、细胞类型特异性调控活性预测到调控遗传变异效应预测等多个生物学相关任务。数据集的构建基于ENCODE项目的高置信度调控区域（cCREs）、HOCOMOCO数据库中的转录因子结合基序以及ATAC-seq和DNase-seq实验数据。通过这些数据，DART-Eval评估了DNA语言模型（DNALMs）在零样本、探针和微调设置下的性能，并与现有的从头模型（ab initio models）进行了对比。

特点

DART-Eval数据集的显著特点在于其任务的多样性和复杂性，涵盖了从简单的调控序列区分到复杂的遗传变异效应预测。此外，数据集还提供了详细的基准测试框架，允许用户在不同的模型设置下进行评估。数据集的构建过程中，特别注意了生物学混杂因素的控制，确保了评估的准确性和可靠性。

使用方法

DART-Eval数据集可用于评估和比较不同DNA语言模型在调控DNA任务中的性能。用户可以通过零样本、探针和微调等不同设置来测试模型的表现，并使用数据集提供的基准任务进行模型优化。此外，数据集还提供了详细的文档和代码，方便用户进行数据处理、模型训练和结果分析。

背景与挑战

背景概述

DART-Eval数据集由斯坦福大学的研究人员开发，旨在评估DNA语言模型（DNALMs）在调控DNA上的表现。该数据集于2024年发布，主要研究人员包括Aman Patel、Arpita Singhal、Austin Wang等，隶属于斯坦福大学计算机科学系、遗传学系和病理学系。DART-Eval的核心研究问题是如何评估DNALMs在零样本、探针和微调设置下对调控DNA的识别能力，特别是在序列基序发现、细胞类型特异性调控活性预测和调控遗传变异的反事实预测等任务中的表现。该数据集的推出填补了现有基准测试的空白，为基因组学领域的模型评估提供了新的工具，并对未来的DNALMs开发和应用具有重要影响。

当前挑战

DART-Eval数据集面临的挑战主要集中在两个方面。首先，构建过程中需要解决调控DNA序列的稀疏性和组合性问题，这些序列在基因组中仅占5%到20%，且其功能特征分布不均，导致模型难以全面捕捉其多样性。其次，现有基准测试在数据集设计和评估方法上存在缺陷，如缺乏严格的控制组、依赖简化的基线模型等，这些因素可能夸大了DNALMs的相对优势。此外，DNALMs在反事实预测任务中的表现尤为不佳，表明其在处理复杂生物学任务时仍存在显著局限。这些问题凸显了开发更有效的模型和评估策略的必要性。

常用场景

经典使用场景

DART-Eval数据集的经典使用场景主要集中在评估DNA语言模型（DNALMs）在监管DNA上的表现。该数据集通过一系列任务，如序列基序发现、细胞类型特异性监管活性预测以及监管遗传变异的反事实预测，来评估DNALMs在零样本、探针和微调设置下的性能。这些任务旨在测试模型在不同生物学相关任务中的表现，从而为DNALMs的进一步优化提供基准。

衍生相关工作

DART-Eval数据集的发布催生了一系列相关的经典工作，特别是在DNA语言模型的评估和优化方面。例如，研究人员基于该数据集开发了新的模型架构和训练策略，以提高DNALMs在监管DNA任务中的表现。此外，DART-Eval还激发了对现有模型在不同物种和功能区域上的泛化能力的研究，推动了跨物种基因组学和多细胞类型特异性调控机制的深入探索。

数据集最近研究