plant-msyn-data
收藏Plant Microsynteny Data 数据集概述
数据集基本信息
- 数据集名称: Plant Microsynteny Data (plant-msyn-data)
- 许可协议: MIT
- 任务类别: 其他
- 标签: 生物学、基因组学、共线性、植物
- 数据规模: 1B<n<10B
数据集描述
这是一个预计算的MCscan蛋白质共线性分析结果数据集,涵盖了30多种植物基因组。
数据集结构
plant-msyn-data/ ├── mcscan_results/ │ ├── bed_files/ # 基因位置文件 (.bed) 及 database_genomes.txt 白名单 │ ├── i1_blocks/ # 共线性区块文件 (.i1.blocks) │ ├── lifted_anchors/ # 共线性锚点对文件 (.lifted.anchors) │ ├── last_filtered_by_i1/ # 经I1过滤的LAST比对结果 │ ├── pep_files/ # 蛋白质FASTA文件 (.pep) │ ├── custom_meta/ # 自定义基因组元数据(用户上传) │ └── custom_synteny_meta/ # 自定义共线性项目元数据 ├── sql/ │ ├── search_catalogs/ # 用于快速基因查找的按基因组SQLite目录 │ └── plantmsyn_metadata.db # 中央元数据库 └── annotations/ └── [物种名称]/ └── gene_annotation.tsv # 基因功能注释
支持的基因组
数据集包含30多种植物基因组的共线性数据,包括但不限于:
- 大麦 (Hordeum vulgare)
- 小麦 (Triticum aestivum)
- 水稻 (Oryza sativa)
- 玉米 (Zea mays)
- 拟南芥 (Arabidopsis thaliana)
- 以及其他25种以上物种
使用方法
该数据集设计用于配合 Plant-mSyn 网络应用 使用。
以编程方式使用: python from huggingface_hub import snapshot_download
下载完整数据集
local_path = snapshot_download( repo_id="yoshigold/plant-msyn-data", repo_type="dataset" )
文件格式说明
BED 文件 (*.bed)
制表符分隔的基因位置文件:
- 第1列: 染色体
- 第2列: 起始位置
- 第3列: 终止位置
- 第4列: 基因ID
- 第5列: 分数
- 第6列: 链
区块文件 (*.i1.blocks)
制表符分隔的共线性区块定义文件,链接不同物种间的基因。
注释文件 (gene_annotation.tsv)
制表符分隔的基因功能注释文件:
- 第1列: gene (基因ID)
- 第2列: description (功能注释)
引用
如果使用此数据集,请引用:
- MCscan/JCVI: Tang et al. (2008) Synteny and Collinearity in Plant Genomes




