five

Semi-simulated TF pertubation in ATAC-seq datasets (Fragment length bias)

收藏
Mendeley Data2024-05-10 更新2024-06-27 收录
下载链接:
https://zenodo.org/records/10781109
下载链接
链接失效反馈
官方服务:
资源简介:
Semi-simulated ATAC-seq data with TF pertubations of different pertubation strength & fragment length biases. The three .tar-files contain: DTFAB_sim_fld_es.tar.gz: .bed files of the semi-simulated ATAC-seq fragments DTFAB_sim_fld_cm.tar.gz: count matrices (per peak counts of semi-simulated fragments) DTFAB_sim_fld_peaks.tar.gz: .bed files with ATAC-seq peak coordinates of semi-simulated fragments The folder structure of 1.,2. & 3. is of the following format <tf>_<pertubation paradigm>_<pertubation strength>_FALSE_<fragment length bias setting>. The original files, for which biases & pertubations were introduced, were retrieved from ENCODE with following IDs: ENCFF495DQP, ENCFF130DND, ENCFF447ZRG, ENCFF966ELR, ENCFF358GWK, ENCFF963YZH. ChIP-seq peaks used to introduce perturbations correspond to following ENCODE identifiers: ENCFF592UDD, ENCFF250FJC. This semi-simulated datasets is belongs to a series of datasets: Dataset Description DOI I. pertubation strength TF pertubation with different strengths, no biases introduced 10.5281/zenodo.10732704 II. pos control TF pertubation only introduced in (ChIP-) peaks with a motif of the respective TF. 10.5281/zenodo.10781849 III. fld (this) TF pertubation with additionally introduced fragment length distribution bias 10.5281/zenodo.10781109 IV. gc TF pertubation with additionally introduced GC content bias 10.5281/zenodo.10781759

本数据集为兼具不同转录因子(Transcription Factor,以下简称TF)扰动强度与片段长度偏差的半模拟转座酶可及性染色质高通量测序(Assay for Transposase-Accessible Chromatin using sequencing, ATAC-seq)数据。本次提供的三个.tar格式压缩包具体内容如下: 1. DTFAB_sim_fld_es.tar.gz:包含半模拟ATAC-seq片段的.bed格式文件; 2. DTFAB_sim_fld_cm.tar.gz:包含半模拟ATAC-seq片段峰计数的计数矩阵文件; 3. DTFAB_sim_fld_peaks.tar.gz:包含半模拟ATAC-seq峰坐标的.bed格式文件。 上述1至3类文件的文件夹命名格式统一为:<tf>_<扰动模式>_<扰动强度>_FALSE_<片段长度偏差设置>。 本数据集引入偏差与扰动所基于的原始文件从ENCODE数据库获取,对应编号为:ENCFF495DQP、ENCFF130DND、ENCFF447ZRG、ENCFF966ELR、ENCFF358GWK、ENCFF963YZH。用于引入扰动的染色质免疫共沉淀测序(Chromatin Immunoprecipitation sequencing, ChIP-seq)峰对应的ENCODE编号为:ENCFF592UDD、ENCFF250FJC。 本半模拟数据集属于一系列配套数据集,各子数据集详情与DOI编号如下: I. 扰动强度系列:仅引入不同强度的TF扰动,未设置额外偏差,DOI:10.5281/zenodo.10732704 II. 阳性对照系列:仅在对应TF基序的ChIP-seq峰中引入TF扰动,DOI:10.5281/zenodo.10781849 III. 片段长度偏差系列(本数据集):在引入TF扰动的同时,额外引入片段长度分布偏差,DOI:10.5281/zenodo.10781109 IV. GC含量偏差系列:在引入TF扰动的同时,额外引入GC含量偏差,DOI:10.5281/zenodo.10781759
创建时间:
2024-03-08
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作