five

plant-msyn-data

收藏
Hugging Face2026-01-25 更新2026-01-26 收录
下载链接:
https://huggingface.co/datasets/Yoshigold/plant-msyn-data
下载链接
链接失效反馈
官方服务:
资源简介:
植物微共线性数据集(plant-msyn-data)是一个预计算的基于MCscan蛋白质的共线性分析结果,包含30多种植物基因组的数据。数据集结构包括多个文件夹,存储基因位置文件、共线性块文件、SQLite目录和基因功能描述等。支持的基因组包括大麦、小麦、水稻、玉米、拟南芥等30多种植物。数据集设计用于Plant-mSyn web应用程序,也可以通过编程方式下载。文件格式包括BED文件、Blocks文件和注释文件。

The Plant Microcollinearity Dataset (plant-msyn-data) is a set of precomputed collinearity analysis results based on protein-mode MCscan, encompassing genomic data from over 30 plant species. The dataset consists of multiple folders storing gene location files, collinearity block files, SQLite databases, gene functional annotation files, and other related materials. Supported plant genomes cover over 30 species including barley, wheat, rice, maize, Arabidopsis thaliana, and others. This dataset is designed for the Plant-mSyn web application, and can also be downloaded programmatically. Supported file formats include BED files, Blocks files, and annotation files.
创建时间:
2026-01-11
原始信息汇总

Plant Microsynteny Data 数据集概述

数据集基本信息

  • 数据集名称: Plant Microsynteny Data (plant-msyn-data)
  • 许可协议: MIT
  • 任务类别: 其他
  • 标签: 生物学、基因组学、共线性、植物
  • 数据规模: 1B<n<10B

数据集描述

这是一个预计算的MCscan蛋白质共线性分析结果数据集,涵盖了30多种植物基因组。

数据集结构

plant-msyn-data/ ├── mcscan_results/ │ ├── bed_files/ # 基因位置文件 (.bed) 及 database_genomes.txt 白名单 │ ├── i1_blocks/ # 共线性区块文件 (.i1.blocks) │ ├── lifted_anchors/ # 共线性锚点对文件 (.lifted.anchors) │ ├── last_filtered_by_i1/ # 经I1过滤的LAST比对结果 │ ├── pep_files/ # 蛋白质FASTA文件 (.pep) │ ├── custom_meta/ # 自定义基因组元数据(用户上传) │ └── custom_synteny_meta/ # 自定义共线性项目元数据 ├── sql/ │ ├── search_catalogs/ # 用于快速基因查找的按基因组SQLite目录 │ └── plantmsyn_metadata.db # 中央元数据库 └── annotations/ └── [物种名称]/ └── gene_annotation.tsv # 基因功能注释

支持的基因组

数据集包含30多种植物基因组的共线性数据,包括但不限于:

  • 大麦 (Hordeum vulgare)
  • 小麦 (Triticum aestivum)
  • 水稻 (Oryza sativa)
  • 玉米 (Zea mays)
  • 拟南芥 (Arabidopsis thaliana)
  • 以及其他25种以上物种

使用方法

该数据集设计用于配合 Plant-mSyn 网络应用 使用。

以编程方式使用: python from huggingface_hub import snapshot_download

下载完整数据集

local_path = snapshot_download( repo_id="yoshigold/plant-msyn-data", repo_type="dataset" )

文件格式说明

BED 文件 (*.bed)

制表符分隔的基因位置文件:

  • 第1列: 染色体
  • 第2列: 起始位置
  • 第3列: 终止位置
  • 第4列: 基因ID
  • 第5列: 分数
  • 第6列: 链

区块文件 (*.i1.blocks)

制表符分隔的共线性区块定义文件,链接不同物种间的基因。

注释文件 (gene_annotation.tsv)

制表符分隔的基因功能注释文件:

  • 第1列: gene (基因ID)
  • 第2列: description (功能注释)

引用

如果使用此数据集,请引用:

  • MCscan/JCVI: Tang et al. (2008) Synteny and Collinearity in Plant Genomes
搜集汇总
数据集介绍
main_image_url
构建方式
在植物基因组学领域,全面解析物种间的微共线性关系对于揭示进化机制和功能基因保守性至关重要。该数据集通过整合30余种代表性植物基因组,运用MCscan蛋白质比对算法进行系统性共线性分析,构建了涵盖基因位置文件、共线性区块及锚点对的结构化数据层。数据生成过程包括从原始蛋白质序列的FASTA文件出发,经过LAST比对过滤与I1区块筛选,最终形成标准化的BED格式基因定位文件与共线性区块定义,确保了分析结果在跨物种比较中的可靠性与一致性。
特点
本数据集的核心特点在于其广泛的物种覆盖与精细的数据组织,囊括了从模式植物拟南芥到重要作物如水稻、玉米、小麦和大麦等30多个物种的预计算共线性信息。数据以分层目录结构清晰呈现,包括基因位置、共线性区块、锚点对及功能注释等多个维度,并辅以SQLite数据库实现快速基因查询。这种设计不仅支持大规模的跨基因组比较研究,还通过标准化的文件格式如BED与TSV,确保了数据的可互操作性与下游分析的便捷性。
使用方法
该数据集主要服务于植物比较基因组学与进化生物学研究,用户可通过Plant-mSyn网络应用程序进行交互式可视化探索与共线性分析。对于程序化使用,借助Hugging Face Hub的snapshot_download函数可轻松下载完整数据集至本地。研究人员能够基于BED文件解析基因位置,利用共线性区块文件追溯物种间的同源关系,并结合功能注释文件深化对保守基因功能的理解,从而在基因组进化、基因家族扩张及作物育种等领域开展深入探究。
背景与挑战
背景概述
植物基因组学领域长期致力于解析物种间的进化关系与基因功能保守性,微共线性分析作为关键研究方法,能够揭示基因组间同源基因的排列顺序与结构保守性。Plant Microsynteny Dataset(plant-msyn-data)由研究人员或机构基于MCscan算法构建,发布于近年,旨在为30余种植物基因组提供预计算的蛋白质水平微共线性分析结果。该数据集整合了包括大麦、小麦、水稻、玉米和拟南芥等重要作物与模式植物的基因组数据,为核心研究问题——如基因家族进化、比较基因组学及作物育种中的同源基因挖掘——提供了标准化、可扩展的资源,显著提升了植物基因组比较研究的效率与可重复性,对植物进化生物学与农业基因组学产生了积极影响。
当前挑战
在植物微共线性研究领域,主要挑战在于处理高度复杂且大小各异的植物基因组,这些基因组常包含大量重复序列与多倍化事件,导致同源基因识别与共线性区块定义的准确性受到干扰。具体而言,数据集构建过程中面临多重困难:不同物种基因组注释质量与版本的不一致性,增加了数据清洗与标准化的复杂度;大规模基因组比对的计算资源消耗巨大,需优化算法以平衡精度与效率;此外,整合多源异构数据(如基因功能注释与位置信息)时,需确保格式统一与元数据完整性,以支持跨物种的高效查询与可视化分析。
常用场景
经典使用场景
在植物比较基因组学领域,该数据集通过预计算的MCscan蛋白质同线性分析结果,为研究者提供了跨越30多种植物基因组的同线性区块信息。经典使用场景涉及利用这些同线性区块进行基因家族进化分析,例如识别保守的基因顺序和结构变异,从而揭示物种间基因组重排的历史轨迹。研究人员可以快速定位同源基因区域,探索多倍化事件后的基因保留与丢失模式,为理解植物基因组进化动力学提供关键数据支持。
衍生相关工作
基于该数据集衍生的经典工作包括开发高级同线性可视化工具和进化分析流程。例如,Plant-mSyn应用扩展了交互式基因组浏览器功能,允许用户动态探索同线性区块。相关研究进一步利用这些数据构建植物同线性网络数据库,支持大规模比较基因组学研究,并促进了基于机器学习的基因功能预测模型的发展,为植物基因组注释和进化研究提供了持续的数据驱动创新。
数据集最近研究
最新研究方向
在植物比较基因组学领域,微共线性分析正成为解析物种进化与功能基因挖掘的核心工具。基于plant-msyn-data数据集,前沿研究聚焦于利用其预计算的30余种植物基因组共线性区块,结合深度学习模型预测基因家族扩张与收缩机制,揭示作物驯化过程中的关键遗传变异。近期热点事件包括将该数据集整合到多组学平台,辅助小麦和玉米等主要粮食作物的抗逆基因定位,推动精准育种发展。其影响在于为植物进化生物学提供了标准化、可扩展的共线性资源,显著加速了跨物种比较研究的计算流程,对理解植物基因组结构演化与生物多样性保护具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作