Repeat Expansion Database

github2021-11-26 更新2024-05-31 收录

下载链接：

https://github.com/bahlolab/RepeatExpansionDatabase

下载链接

链接失效反馈

官方服务：

资源简介：

我们维护一个与疾病相关的已知重复扩展的数据库，并提供数据库文件用于多种生物信息学方法来检测短读序列的重复扩展。

We maintain a database of known repeat expansions related to diseases and provide database files for various bioinformatics methods to detect repeat expansions in short-read sequences.

创建时间：

2021-04-05

原始信息汇总

数据集概述：Repeat Expansion Database

数据集内容

疾病相关重复扩增数据库：提供与疾病相关的已知重复扩增数据。
生物信息学方法支持：为多种常用的参考基因组提供短读序列检测重复扩增的生物信息学方法数据库文件。

数据库文件下载

通用数据库文件：
- hg19: disease_hg19.tar.gz
- hg38: disease_hg38.tar.gz
- GRCh37: disease_GRCh37.tar.gz
- GRCh38: disease_GRCh38.tar.gz
特定生物信息学方法数据库文件：
- ExpansionHunter：支持多种参考基因组，如hg19, hg38, GRCh37, GRCh38。
- exSTRa：支持多种参考基因组，如hg19, hg38, GRCh37, GRCh38。
- GangSTR：支持多种参考基因组，如hg19, hg38, GRCh37, GRCh38。
- ExpansionHunter (v2 format)：支持多种参考基因组，如hg19, hg38, GRCh37, GRCh38。

注意事项

证据强度：每个重复扩增与疾病的关联证据强度不同，详细信息可参考相关文献和数据库。
exSTRa数据库文件：包含额外的有用信息，如致病性疾病的阈值。
ExpansionHunter特性：支持退化碱基，其数据库包含其他目录中未包含的额外重复扩增。
版本差异：ExpansionHunter版本2使用不同的数据库格式，为兼容旧版本，提供两种格式。

搜集汇总

数据集介绍

构建方式

Repeat Expansion Database的构建基于已知与疾病相关的重复扩展序列，涵盖了多个常用的参考基因组版本，如hg19、hg38、GRCh37和GRCh38。该数据库通过整合多种生物信息学方法（如ExpansionHunter、exSTRa、GangSTR等）的检测结果，生成了适用于不同方法的数据库文件。这些文件以JSON、TXT和BED等格式存储，便于用户根据需求选择合适的数据格式进行下载和使用。

特点

该数据集的一个显著特点是其广泛覆盖了与疾病相关的重复扩展序列，并提供了多种生物信息学工具的兼容性。不同工具的数据文件格式各异，例如ExpansionHunter支持包含退化碱基的重复扩展序列，而exSTRa文件则包含额外的致病性阈值信息。此外，数据库还提供了ExpansionHunter的两种不同版本格式，以满足不同用户的需求。这种多样性和灵活性使得该数据集在重复扩展检测领域具有较高的实用价值。

使用方法

用户可以通过GitHub页面下载适用于不同参考基因组和生物信息学工具的数据库文件。下载后，用户可以根据具体的分析需求选择合适的工具进行重复扩展检测。例如，ExpansionHunter适用于检测包含退化碱基的重复扩展，而exSTRa则提供了额外的致病性阈值信息。此外，GitHub页面还提供了详细的教程和示例工作流程，帮助用户快速上手并完成重复扩展分析。

背景与挑战

背景概述

Repeat Expansion Database是一个专注于疾病相关重复扩展序列的数据库，由Bahlolab团队维护。该数据库旨在为短读长测序技术提供支持，帮助研究人员检测与疾病相关的重复扩展序列。数据库涵盖了多个常用的参考基因组版本，如hg19、hg38、GRCh37和GRCh38，并提供了多种生物信息学方法的数据库文件，如ExpansionHunter、exSTRa和GangSTR。该数据库的创建源于对重复扩展序列与疾病关联性研究的迫切需求，尤其是在神经退行性疾病和遗传性疾病领域。通过整合多种生物信息学工具的数据，该数据库为研究人员提供了一个统一的平台，极大地推动了相关领域的研究进展。

当前挑战

Repeat Expansion Database在构建和应用过程中面临多重挑战。首先，重复扩展序列的检测本身具有技术复杂性，尤其是在短读长测序数据中，如何准确识别和量化这些序列是一个难题。其次，不同生物信息学工具对重复扩展序列的定义和检测方法存在差异，导致数据库需要兼容多种格式和标准。此外，重复扩展序列与疾病的关联性证据强度不一，部分关联性尚缺乏充分验证，这为数据库的准确性和可靠性带来了挑战。最后，随着测序技术的快速发展和新工具的出现，数据库需要不断更新以保持其时效性和实用性，这对维护团队提出了较高的要求。

常用场景

经典使用场景

Repeat Expansion Database 主要用于基因组学研究中，特别是在短读长测序技术中检测与疾病相关的重复扩展。该数据集为研究人员提供了多种生物信息学方法的数据库文件，支持在常用参考基因组（如hg19、hg38、GRCh37和GRCh38）上进行重复扩展检测。通过该数据集，研究人员可以快速识别与神经退行性疾病、肌肉疾病等相关的重复扩展变异，为疾病的分子机制研究提供重要线索。

解决学术问题

该数据集解决了基因组学领域中重复扩展检测的标准化问题。通过整合多种生物信息学工具（如ExpansionHunter、exSTRa、GangSTR等）的数据库文件，研究人员能够更高效地分析重复扩展与疾病之间的关联。这不仅提高了检测的准确性和可重复性，还为理解重复扩展在疾病发生中的作用提供了数据支持，推动了相关疾病的分子诊断和治疗研究。

衍生相关工作

基于Repeat Expansion Database，许多经典研究工作得以展开。例如，Depienne与Mandel（2021）的综述详细探讨了重复扩展与疾病的关联机制，进一步验证了该数据集在疾病研究中的价值。此外，AGHA Repeat Disorders PanelApp等项目也利用该数据集开发了疾病相关的重复扩展检测工具，推动了基因组学技术在临床实践中的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集