five

CAGE peaks annotation (hg38 v3)

收藏
Mendeley Data2024-06-29 更新2024-06-27 收录
下载链接:
https://figshare.com/articles/dataset/Re-processing_of_the_data_generated_by_the_FANTOM5_project_hg38_v3_CAGE_peaks_annotation/4880072
下载链接
链接失效反馈
官方服务:
资源简介:
Annotation files = Transcript association * (Human phase1+2 set) hg38_liftover+new_CAGE_peaks_phase1and2_trans.txt (Format) 1) CAGE peak ID "(Old FANTOM5 CAGE Peak ID);(new TSS ID)" 2) Associated transcript ID 3) Distance between CAGE peak and associated transcript 4) Number of transcripts within 500bp (polII transcripts) or 50bp (non-polII transcripts) 5) All transcripts within the above cutoffs (500bp or 50bp) (Transcript ID:distance) = Gene/protein association * (Human phase1+2 set) hg38_liftover+new_CAGE_peaks_phase1and2_annot.txt (Format) 1) CAGE peak ID "(Old FANTOM5 CAGE Peak ID);(new TSS ID)" 2) Associated transcript ID 3) Distance between CAGE peak and associated transcript 4) EntrezGene GeneID 5) HGNC/MGI ID 6) UniProt ID 7) Associated gene name 8) Associated gene symbol 9) Associated gene synonym 10) Source of associated gene = CAGE peak name * (Human phase1+2 set) human_phase1and2_CAGE_Peak_name.txt (Format) 1) CAGE peak ID "(Old FANTOM5 CAGE Peak ID);(new TSS ID)" 2) New CAGE peak name 3) Old (Obsoleted) CAGE peak name = Annotation sources Jun. 16th, 2015 snapshots of the following databases * EntrezGene * Gencode (Human v22, Mouse vM4) * HGNC * MGI * UCSC Genome Browser (hg38/mm10) * UniProt

注释文件分为三类,具体如下: 1. 转录本关联文件:对应数据集`(Human phase1+2 set) hg38_liftover+new_CAGE_peaks_phase1and2_trans.txt`,其格式包含以下字段: 1) CAGE峰(CAGE peak)ID:格式为"(旧FANTOM5 CAGE峰ID);(新转录起始位点(Transcription Start Site, TSS)ID)" 2) 关联转录本ID 3) CAGE峰与关联转录本之间的距离 4) 阈值范围内的转录本数量:聚合酶II(Pol II)转录本对应500bp阈值,非聚合酶II转录本对应50bp阈值 5) 上述阈值范围内的所有转录本:格式为"转录本ID:距离" 2. 基因/蛋白关联文件:对应数据集`(Human phase1+2 set) hg38_liftover+new_CAGE_peaks_phase1and2_annot.txt`,其格式包含以下字段: 1) CAGE峰ID:格式为"(旧FANTOM5 CAGE峰ID);(新TSS ID)" 2) 关联转录本ID 3) CAGE峰与关联转录本之间的距离 4) EntrezGene基因ID 5) HGNC/MGI ID 6) UniProt ID 7) 关联基因名称 8) 关联基因符号 9) 关联基因别名 10) 关联基因的来源 3. CAGE峰名称文件:对应数据集`(Human phase1+2 set) human_phase1and2_CAGE_Peak_name.txt`,其格式包含以下字段: 1) CAGE峰ID:格式为"(旧FANTOM5 CAGE峰ID);(新TSS ID)" 2) 新CAGE峰名称 3) 旧(已废弃)CAGE峰名称 本数据集的注释来源为2015年6月16日快照版本的以下数据库: - EntrezGene - Gencode(人类版本v22、小鼠版本vM4) - HGNC(人类基因命名委员会,HUGO Gene Nomenclature Committee) - MGI(小鼠基因组信息学数据库,Mouse Genome Informatics) - UCSC基因组浏览器(UCSC Genome Browser,hg38/mm10版本) - UniProt(通用蛋白质知识库,Universal Protein Resource)
创建时间:
2023-06-28
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集提供了人类基因转录起始位点(TSS)的详细注释信息,包括转录关联、基因/蛋白质关联和CAGE峰名称。数据来源于FANTOM5项目,整合了多个权威数据库的信息,适用于基因表达和基因组结构研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作