OnContaminationofSymbolicDatasets

github2020-02-15 更新2024-05-31 收录

下载链接：

https://github.com/antonypearson/OnContaminationofSymbolicDatasets

下载链接

链接失效反馈

官方服务：

资源简介：

处理过的数据，用于覆盖良好的CpG三联体。数据来源于ENCODE公开的121个实验重复，代表了77个独特的生物样本，包括临床组织样本、细胞系和原代细胞。每个重复都与一个BAM文件相关联，该文件是通过使用Bismark将读数映射到GRCh38生成的。使用MethPipe甲基化软件套件将BAM文件转换为MethPipe格式，并生成报告每个读取中包含的每个CpG的基因组索引和甲基化状态的高效epiread文件。

The processed data is utilized to comprehensively cover well-represented CpG triplets. The data originates from 121 experimental replicates publicly available from ENCODE, representing 77 unique biological samples, including clinical tissue samples, cell lines, and primary cells. Each replicate is associated with a BAM file, which was generated by mapping reads to GRCh38 using Bismark. The BAM files were converted into MethPipe format using the MethPipe methylation software suite, producing efficient epiread files that report the genomic index and methylation status of each CpG contained within each read.

创建时间：

2020-02-05

原始信息汇总

数据集概述

数据来源

数据集包含121个实验重复，代表77个独特的生物样本，来源于ENCODE公开的WGBS数据。
样本类型包括临床组织样本、细胞系和原始细胞。

数据处理

使用Bismark将读数映射到GRCh38，并生成BAM文件。
通过MethPipe软件套件将BAM文件转换为MethPipe格式，并生成epiread文件。

数据提取

从每个重复的epiread文件中提取“well-covered”三联体数据，即所有三个CpGs均至少被100个读数覆盖的三联体。
排除了报告CpG甲基化状态不明确的数据。

数据分析

对每个样本的每个常染色体，估计每个well-covered三联体的可交换权重，并使用N=1000个完整bootstrap重采样进行偏差校正。
生成的Numpy文件包含与每个BAM文件ID对应的处理过的三联体数据。

数据结构

每行代表一个well-covered三联体。
列包括：
1. 染色体编号
2. 三联体在染色体上的索引
3. 对可交换分布类总变差距离的估计
4. 三联体可交换权重的偏差校正估计
5. $hatlambda$的标准偏差bootstrap估计 6-13. 8种可能的三联体配置的计数 14-21. 最大的可交换组件的估计

搜集汇总

数据集介绍

构建方式

OnContaminationofSymbolicDatasets数据集的构建，是基于ENCODE项目公开的77个独特生物学样本的WGBS数据，涵盖121个实验重复。通过筛选单端读取，排除低覆盖度或读长不足的样本，确保数据质量。利用Bismark将读取映射至GRCh38，并通过MethPipe软件套件转换BAM文件，生成报告每个CpG位点基因组索引及甲基化状态的epiread文件。数据集进一步筛选出每个样本中由至少100个读取共同覆盖的'CpG三联体'，计算其可交换权重，并进行偏差校正。

特点

该数据集的特点在于，它提供了经过严格筛选和处理的高质量WGBS数据，特别关注'CpG三联体'的甲基化状态。通过偏差校正的可交换权重估计，数据集不仅反映了CpG三联体的甲基化模式，还包含了估计的变异性距离和最大可交换成分估计，为研究者提供了深入探索基因组甲基化模式变异性的可能。

使用方法

使用该数据集，研究者可以首先通过Numpy文件访问每个BAM文件ID对应的处理后的三联体数据。每行数据代表一个'CpG三联体'，包含染色体编号、三联体在染色体上的索引、总变异性距离估计、偏差校正的可交换权重估计、标准差的引导估计以及三联体可能的8种配置的计数。用户可根据自身研究需求，对这些数据进行统计分析或作为机器学习模型的输入特征。

背景与挑战

背景概述

OnContaminationofSymbolicDatasets数据集，旨在研究表观遗传学中的甲基化现象，其创建基于ENCODE项目公开的完整基因组甲基化测序数据。该数据集由121个实验重复样本组成，涵盖77个独特的生物样本，包括临床组织样本、细胞系和原代细胞。研究人员通过严谨的数据筛选和处理流程，利用Bismark工具将读取的数据映射到GRCh38参考基因组，并使用MethPipe软件套件进行甲基化状态分析。该数据集的构建，为研究CpG位点甲基化提供了重要的数据资源，对于解析基因表达调控机制及表观遗传学领域的研究具有重要价值。

当前挑战

在构建该数据集的过程中，研究人员面临着诸多挑战。首先，数据集的构建需处理大量复杂的甲基化测序数据，确保数据质量的同时还需进行有效的数据清洗和格式转换。其次，对于CpG位点的甲基化状态评估，需精确提取和校正由至少100个读取覆盖的所谓的'良好覆盖'的三联体，这对数据处理算法提出了较高的要求。此外，数据集在处理过程中还需解决由于估计偏差导致的权重估计值可能超出[0,1]区间的问题，这要求研究人员采用截断方法来确保数据的有效性。这些挑战不仅考验了研究人员的处理能力，也为相关领域的数据集构建提供了宝贵的经验教训。

常用场景

经典使用场景

在表观遗传学研究中，OnContaminationofSymbolicDatasets数据集的运用尤为关键，其提供了经过严格筛选与处理的CpG三联体数据。该数据集的经典使用场景在于，研究者可借此分析CpG位点在基因组中的甲基化状态，进而探究其在不同生物学样本中的变异特性，为揭示基因表达调控的分子机制提供了重要基础。

解决学术问题

该数据集解决了表观遗传学研究中CpG位点甲基化数据质量与准确性的关键问题。通过精确的读取与统计方法，数据集不仅排除了低覆盖度或不充分读取长度的样本，还通过一系列的数据处理流程，如Bismark映射、MethPipe软件处理，以及交换权重估计和偏差校正，极大地提升了数据的可用性与科研价值。

衍生相关工作

基于该数据集，已衍生出一系列相关研究工作，包括CpG位点甲基化与基因表达的相关性分析、不同生物学状态下甲基化模式的比较研究，以及在更广泛的生物学和医学研究中，作为重要参考数据集使用，推动了表观遗传学领域的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集