five

人工授精牛和克隆牛胎盘转录组数据

收藏
DataCite Commons2025-04-27 更新2025-04-16 收录
下载链接:
https://www.scidb.cn/detail?dataSetId=d17b91ae3ca948a38fb631ea1f7e68a2
下载链接
链接失效反馈
官方服务:
资源简介:
1 原始序列数据统计利用第二代高通量测序平台进行测序,单次运行能产生数十亿级的 reads,如此海量的数据无法逐个展运用统计学方法,对所有测序 reads 的每个 cycle 进行碱基分布和质量波动的统计,可以从宏观上直观地反映出样本的测序质量和文库构建质量。我们针对每一个样本的原始测序数据进行测序相关质量评估,包括(1) A/T/G/C 碱基含量分布统计,(2) 碱基质量分布统计,(3) 碱基错误率分布统计。2 原始测序数据质控由于原始测序数据中会包含测序接头序列、低质量读段、N(N 表示不确定碱基信息)率较高序列及长度过短序列,这将严重影响后续分析的质量。为保证后续的生物信息分析的准确性,首先对原始测序数据进行过滤,从而得到高质量的测序数据(clean data)以保证后续分析的顺利进行,具体步骤及顺序如下:1) 去除 reads 中的接头序列,去除由于接头自连等原因导致没有插入片段的 reads;2) 将序列末端(3’端)低质量(质量值小于 20)的碱基修剪掉,如剩余序列中仍然有质量值小于 10则将整条序列剔除,否则保留;3) 去除含 N 比率超过 10%的 reads;4) 舍弃去 adapter 及质量修剪后长度小于 20bp 的序列。数据质控完成后,对质控后的数据再次进行统计以及质量评估,同样包括:碱基错误率分布统计和碱基含量分布统计。使用软件:fastp(https://github.com/OpenGene/fastp)3 与参考基因组比对将质控后的原始数据,即 clean data(reads),与参考基因组比对,获得用于后续转录本组装、表达量计算等的 mapped data(reads),同时对该次转录组测序的比对结果进行质量评估,主要包括测序饱和度、基因覆盖度、Reads 在参考基因组不同区域分布以及 Reads 在不同染色体分布分析。使用软件:HiSat2(默认使用,http://ccb.jhu.edu/software/hisat2/index.shtml)4 表达量分析转录本的丰度体现基因的表达水平,转录本丰度越高,则基因表达水平越高。在RNA-Seq分析中,通过定位到基因组区域的序列(clean reads)的数量(reads counts)来计算基因的表达水平。使用软件RSEM分别对基因和转录本的表达水平进行定量分析,以便后续分析不同样本间基因/转录本的差异表达情况,并可通过结合序列功能信息,揭示基因的调控机制。使用软件:RSEM(默认使用,http://deweylab.github.io/RSEM/)5 表达差异分析获得基因的 Read Counts 数后,对多样本(≥2)项目进行样本间基因的表达差异分析,鉴定出样本间差异表达的基因,进而研究差异表达基因的功能。差异表达使用的软件是 DESeq2(有生物学重复,默认使用) 或 DEGseq(无生物学重复,默认使用),显著差异表达基因的默认筛选标准为:FDR < 0.05 & |log2FC|≧ 1,当一个基因同时满足这两个条件时,则视该基因为差异表达基因(differentially expressed gene, DEG)。使用软件:DEGseq (https://www.rdocumentation.org/packages/DEGseq/versions/1.26.0);DESeq2(http://bioconductor.org/packages/stats/bioc/DESeq2/);6 差异基因 GO 和 KEGG 注释分析利用 GO 数据库,可以将基因按照它们参与的生物学过程(Biological Process,BP)、构成细胞的组分(Cellular Component, CC)和实现的分子功能(Molecular Function,MF)进行分类。对差异表达基因进行 GO注释。利用 KEGG 数据库,可将基因按照参与的 pathway 通路或行使的功能分类。对差异表达基因进行 KEGG注释。使用数据库:去(http://geneontology.org/)凯格(https://www.genome.jp/kegg/)7 差异基因 GO 和 KEGG 富集分析富集分析方法通常是分析一组基因在某个功能节点上是否出现过,原理是由单个基因的注释分析发展为基因集合的注释分析。富集分析提高了研究的可靠性,能够识别出与生物现象最相关的生物学过程。7.1 GO 富集分析本次分析使用软件 Goatools 进行富集分析,使用方法为 Fisher 精确检验。为控制计算的假阳性率使用 4种多重检验方法(Bonferroni, Holm, Sidak 和 false discovery rate) 对 p 值进行了校正,通常情况下,当经过校正的 p 值(p_fdr)< 0.05 时,认为此 GO 功能存在显著富集情况。使用软件:Goatools (https://github.com/tanghaibao/GOatools)7.2 KEGG 通路富集分析本次分析使用 Python scipy 软件包进行 KEGG PATHWAY 富集分析, 计算原理同 GO 功能富集分析,使用 Fisher 精确检验进行计算。为控制计算假阳性率,采用 BH(FDR) 方法进行多重检验,经过校正的 p 值(校正后的 P 值)以 0.05 为阈值,满足此条件的 KEGG 通路定义为在差异表达基因中显著富集的 KEGG通路。使用软件:Python scipy 软件包(https://scipy.org/install/)
提供机构:
Science Data Bank
创建时间:
2024-10-28
二维码
社区交流群
二维码
科研交流群
商业服务