ph_datasets

github2022-09-09 更新2024-05-31 收录

下载链接：

https://github.com/RabadanLab/ph_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

收集了Rabadan实验室在基因组学问题中应用持久同调的出版物中使用的数据集。

This dataset comprises the data utilized in publications by the Rabadan Lab, which apply persistent homology to genomics problems.

创建时间：

2015-03-07

原始信息汇总

数据集概述

数据集名称

ph_datasets

数据集描述

该数据集由Rabadan Lab收集，用于在基因组学问题中应用持久同调的出版物。

数据集内容

pnas2013

pnas2013/avian_HA_nt_concat_jukes_cantor.csv: 禽流感HA片段，使用Jukes-Cantor度量作为距离矩阵。
pnas2013/avian_all_nt_concat_jukes_cantor.csv: 禽流感所有片段的串联，使用Jukes-Cantor度量作为距离矩阵。
pnas2013/avian_NA_nt_concat_jukes_cantor.csv: 禽流感NA片段，使用Jukes-Cantor度量作为距离矩阵。

icml2014

icml2014/ms_n100_t500_r100: 包含重组的样本，100个样本，变异率500，重组率100，以二进制序列矩阵形式提供。
icml2014/ms_n100_t500_r0: 不含重组的样本，100个样本，变异率500，无重组，以二进制序列矩阵形式提供。

TARGet

TARGet/Darwin_Finches.fa: 112只达尔文雀，来自加拉帕戈斯群岛，提供为FASTA文件，包含142个同型双态SNP的遗传变异。
TARGet/Divergent_Populations_Isolated.fa: 300个序列，300个分离位点，来自两个分化群体，使用ms软件进行共祖模拟。
TARGet/Divergent_Populations_Migration.fa: 与前一组相同，但两个群体间的突变率为2N。

ms

ms/n5000: 使用ms模拟，5000个样本。
ms/n10000: 使用ms模拟，10000个样本。
ms/n20000: 使用ms模拟，20000个样本。

HIV

hiv/HIV1_FLT_2014_env_DNA.p-dist.csv: ENV蛋白，使用Matlab的seqpdist输出。
hiv/HIV1_FLT_2014_gag_DNA.p-dist.csv: GAG蛋白，使用Matlab的seqpdist输出。
hiv/HIV1_FLT_2014_pol_DNA.p-dist.csv: POL蛋白，使用Matlab的seqpdist输出。
hiv/HIV1_FLT_2014_genome_DNA.p-dist.csv: 全基因组，使用Matlab的seqpdist输出。

搜集汇总

数据集介绍

构建方式

ph_datasets数据集的构建基于多个基因组学研究中的持久同调应用，数据来源于Rabadan实验室的多个出版物。数据集中的距离矩阵通过Jukes-Cantor度量计算，并使用Matlab的`seqpdist`工具生成。此外，部分数据通过`ms`软件进行合并模拟生成，模拟了不同种群遗传重组和突变的情景。数据集还包括从Los Alamov HIV数据库中获取的HIV序列比对数据，进一步丰富了数据集的多样性。

特点

ph_datasets数据集的特点在于其多样性和广泛的应用场景。数据集涵盖了流感病毒、HIV病毒以及达尔文雀等多种生物的基因组数据，提供了从简单到复杂的拓扑结构分析。数据以距离矩阵和二进制序列矩阵的形式呈现，便于进行持久同调分析。此外，数据集还包含了不同种群遗传重组和突变的模拟数据，为研究遗传变异和进化提供了丰富的实验材料。

使用方法

ph_datasets数据集的使用方法主要围绕持久同调分析展开。研究人员可以通过加载数据集中的距离矩阵或二进制序列矩阵，利用拓扑数据分析工具进行持久同调计算。数据集中的FASTA文件和CSV文件可直接用于基因组序列比对和距离矩阵计算。对于模拟数据，研究人员可以使用`ms`软件进行进一步的分析和验证。数据集的结构化设计使得其易于集成到现有的生物信息学分析流程中，为基因组学和进化生物学研究提供了强有力的支持。

背景与挑战

背景概述

ph_datasets是由Rabadan实验室创建的一个专注于基因组学中持久同调应用的公开数据集。该数据集首次发布于2013年，主要研究人员包括J. Chan、G. Carlsson和R. Rabadan等，其核心研究问题是通过拓扑数据分析方法揭示病毒进化、种群遗传学以及病原菌抗药性等复杂生物学现象的拓扑结构。该数据集在《美国国家科学院院刊》（PNAS）等顶级期刊中得到了广泛应用，显著推动了拓扑数据分析在基因组学领域的应用与发展。

当前挑战

ph_datasets面临的挑战主要体现在两个方面。首先，在解决领域问题上，持久同调方法需要处理高维数据的拓扑结构，而基因组数据的复杂性和多样性使得拓扑特征的提取与解释变得极具挑战性。其次，在数据构建过程中，研究人员需要依赖复杂的模拟工具（如`ms`）生成大规模遗传数据，并确保数据的准确性和一致性。此外，数据集的多样性和规模也对算法的计算效率和存储能力提出了更高的要求，这进一步增加了数据处理的难度。

常用场景

经典使用场景

ph_datasets数据集在基因组学领域中，通过持久同调（Persistent Homology）方法分析病毒进化、种群遗传学和细菌抗药性等复杂生物学问题。该数据集包含了多个病毒和细菌的基因序列数据，提供了基于Jukes-Cantor距离矩阵的拓扑结构分析，帮助研究者从拓扑角度揭示基因序列的演化规律。

解决学术问题

ph_datasets解决了基因组学中拓扑数据分析的关键问题，特别是在病毒进化、种群遗传学和细菌抗药性研究中。通过持久同调方法，研究者能够从高维数据中提取出拓扑特征，揭示基因序列的演化模式和重组事件。这一方法不仅为基因组学提供了新的分析工具，还推动了拓扑数据分析和生物信息学的交叉研究。

衍生相关工作

ph_datasets衍生了多项经典研究工作，如Chan等人利用该数据集研究了病毒进化的拓扑结构，揭示了流感病毒的进化模式；Emmett等人则通过该数据集开发了基于持久图的参数推断方法，应用于种群遗传学研究。此外，Camara等人利用该数据集推断祖先重组图，进一步推动了拓扑数据分析在基因组学中的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集