CAGE peaks annotation (hg38 v3)
收藏Mendeley Data2024-06-29 更新2024-06-27 收录
下载链接:
https://figshare.com/articles/dataset/Re-processing_of_the_data_generated_by_the_FANTOM5_project_hg38_v3_CAGE_peaks_annotation/4880072
下载链接
链接失效反馈官方服务:
资源简介:
Annotation files = Transcript association * (Human phase1+2 set) hg38_liftover+new_CAGE_peaks_phase1and2_trans.txt (Format) 1) CAGE peak ID "(Old FANTOM5 CAGE Peak ID);(new TSS ID)" 2) Associated transcript ID 3) Distance between CAGE peak and associated transcript 4) Number of transcripts within 500bp (polII transcripts) or 50bp (non-polII transcripts) 5) All transcripts within the above cutoffs (500bp or 50bp) (Transcript ID:distance) = Gene/protein association * (Human phase1+2 set) hg38_liftover+new_CAGE_peaks_phase1and2_annot.txt (Format) 1) CAGE peak ID "(Old FANTOM5 CAGE Peak ID);(new TSS ID)" 2) Associated transcript ID 3) Distance between CAGE peak and associated transcript 4) EntrezGene GeneID 5) HGNC/MGI ID 6) UniProt ID 7) Associated gene name 8) Associated gene symbol 9) Associated gene synonym 10) Source of associated gene = CAGE peak name * (Human phase1+2 set) human_phase1and2_CAGE_Peak_name.txt (Format) 1) CAGE peak ID "(Old FANTOM5 CAGE Peak ID);(new TSS ID)" 2) New CAGE peak name 3) Old (Obsoleted) CAGE peak name = Annotation sources Jun. 16th, 2015 snapshots of the following databases * EntrezGene * Gencode (Human v22, Mouse vM4) * HGNC * MGI * UCSC Genome Browser (hg38/mm10) * UniProt
注释文件分为三类,具体如下:
1. 转录本关联文件:对应数据集`(Human phase1+2 set) hg38_liftover+new_CAGE_peaks_phase1and2_trans.txt`,其格式包含以下字段:
1) CAGE峰(CAGE peak)ID:格式为"(旧FANTOM5 CAGE峰ID);(新转录起始位点(Transcription Start Site, TSS)ID)"
2) 关联转录本ID
3) CAGE峰与关联转录本之间的距离
4) 阈值范围内的转录本数量:聚合酶II(Pol II)转录本对应500bp阈值,非聚合酶II转录本对应50bp阈值
5) 上述阈值范围内的所有转录本:格式为"转录本ID:距离"
2. 基因/蛋白关联文件:对应数据集`(Human phase1+2 set) hg38_liftover+new_CAGE_peaks_phase1and2_annot.txt`,其格式包含以下字段:
1) CAGE峰ID:格式为"(旧FANTOM5 CAGE峰ID);(新TSS ID)"
2) 关联转录本ID
3) CAGE峰与关联转录本之间的距离
4) EntrezGene基因ID
5) HGNC/MGI ID
6) UniProt ID
7) 关联基因名称
8) 关联基因符号
9) 关联基因别名
10) 关联基因的来源
3. CAGE峰名称文件:对应数据集`(Human phase1+2 set) human_phase1and2_CAGE_Peak_name.txt`,其格式包含以下字段:
1) CAGE峰ID:格式为"(旧FANTOM5 CAGE峰ID);(新TSS ID)"
2) 新CAGE峰名称
3) 旧(已废弃)CAGE峰名称
本数据集的注释来源为2015年6月16日快照版本的以下数据库:
- EntrezGene
- Gencode(人类版本v22、小鼠版本vM4)
- HGNC(人类基因命名委员会,HUGO Gene Nomenclature Committee)
- MGI(小鼠基因组信息学数据库,Mouse Genome Informatics)
- UCSC基因组浏览器(UCSC Genome Browser,hg38/mm10版本)
- UniProt(通用蛋白质知识库,Universal Protein Resource)
创建时间:
2023-06-28
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集提供了人类基因转录起始位点(TSS)的详细注释信息,包括转录关联、基因/蛋白质关联和CAGE峰名称。数据来源于FANTOM5项目,整合了多个权威数据库的信息,适用于基因表达和基因组结构研究。
以上内容由遇见数据集搜集并总结生成



