AngioNCS

Hugging Face2025-12-04 更新2025-12-05 收录

下载链接：

https://huggingface.co/datasets/titodamiani/AngioNCS

下载链接

链接失效反馈

官方服务：

资源简介：

该HuggingFace数据集存储了与手稿'Norcoclaurine synthases are widespread among angiosperms'相关的所有原始和处理数据，因为这些数据太大无法存储在GitHub上。数据集结构遵循Cookiecutter Data Science格式，包含原始数据（如MassSpecGym光谱和转录组）、处理数据（如BIA光谱和植物MASST元数据）、临时数据（如GNVer结果）和外部数据（如系统发育树和1K转录组元数据）。

创建时间：

2025-11-29

原始信息汇总

AngioNCS 数据集概述

数据集来源

该数据集托管了与手稿 “Norcoclaurine synthases are widespread among angiosperms” 相关的所有原始和处理后数据，因数据量过大而无法存放于GitHub。

数据集结构

数据集遵循 Cookiecutter Data Science 结构，具体目录组织如下：

raw/
- msgym/: 存放 MassSpecGym 光谱及元数据。
- transcriptomes/: 存放来自 1K Plant Transcriptomes 项目的已组装转录组（FASTA格式）。
processed/
- ref_ms2.mgf: 来自 MassSpecGym 的参考 BIA 光谱。
- bia_reports.csv: Wikidata BIA 报告。
- pmasst_clean.csv: 清理后的 plantMASST 元数据（已移除空白和QC数据文件，并包含通过 Global Names Verifier 解析的分类学名称）。
- pmasst_matches.csv: 汇总的 plantMASST 匹配结果。
interim/
- gnverifier/: GNVer 结果。
external/
- fastmasst/: 批量 plantMASST 搜索的输出结果。
- trees/: 系统发育树文件。
- 1k_transcriptomes.xlsx: 1K 转录组元数据。
- plantmasst.tsv: plantMASST 文件清单。

关键文件说明

raw/msgym 文件夹包含从 version 1.3.1 下载的 MassSpecGym 光谱（MGF 文件）及相关元数据（CSV 文件）。
raw/transcriptomes 文件夹包含从 1K Plant Transcriptomes 项目下载的已组装转录组。
processed/pmasst_clean.csv 文件基于 external/plantmasst.tsv 文件生成，并进行了数据清理和分类学名称解析。
external/fastmasst 文件夹包含使用 processed/ref_ms2.mgf 作为输入，于指定日期运行 plantMASST 批量搜索（version 1.8.0）的输出结果。
external/trees 文件夹包含从 https://zenodo.org/records/10778207 下载的系统发育树。

使用与重现

要下载数据集并重现数据分析，请遵循对应 GitHub 仓库中 README.md 文件提供的说明，所有代码和脚本均托管于该仓库。

许可信息

数据集采用 MIT 许可证。

搜集汇总

数据集介绍

构建方式

AngioNCS数据集的构建植根于植物生物化学与系统发育学的前沿研究，其核心在于整合多源异构数据以探索去甲乌药碱合酶在被子植物中的分布。构建过程首先从公开资源获取原始数据，包括来自MassSpecGym项目的质谱谱图与元数据，以及来自千种植物转录组计划的组装转录组序列。这些原始数据经过系统化清洗与标准化处理，例如利用Global Names Verifier工具解析并统一分类学名称，移除质谱分析中的空白与质量控制样本，确保数据的准确性与一致性。随后，通过plantMASST工具进行批量质谱搜索，将处理后的质谱数据与植物代谢组数据库进行匹配，生成聚合后的匹配结果。整个架构遵循Cookiecutter Data Science规范，形成层次分明的原始、处理、中间与外部数据目录，为后续分析提供了可复现的结构化基础。

特点

该数据集的特点体现在其高度的综合性与领域针对性。它专门聚焦于植物次生代谢产物生物合成酶的研究，特别是去甲乌药碱合酶，为植物化学与进化生物学提供了宝贵的资源。数据内容极为丰富，不仅包含原始的质谱谱图、转录组序列，还囊括了经过清洗的元数据、系统发育树以及大规模数据库匹配结果，实现了从分子谱图到物种系统发育关系的多维度覆盖。其结构化设计遵循现代数据科学的最佳实践，目录划分清晰，便于用户按需访问不同处理阶段的数据。此外，数据集严格记录了数据来源的版本与获取日期，确保了研究的可追溯性与可重复性，为相关领域的深入分析奠定了坚实的数据基础。

使用方法

使用AngioNCS数据集时，研究者需遵循其配套的分析流程以实现研究目标。首要步骤是访问其GitHub代码仓库，按照其中的README说明下载数据集并配置相应的分析环境。数据的使用通常围绕复现或扩展原研究的数据分析展开，用户可以从`processed`目录直接获取清洗后的核心数据文件，如参考质谱、清理后的元数据及聚合匹配结果，用于下游的统计分析与可视化。若需从头开始验证或进行定制化分析，则可利用`raw`目录中的原始质谱与转录组数据，结合`interim`和`external`目录中的中间结果与外部资源（如系统发育树），运行仓库中提供的脚本进行数据处理、质谱搜索与系统发育分析。这种设计确保了分析流程的模块化与灵活性，支持用户进行探索性研究或方法学验证。

背景与挑战

背景概述

AngioNCS数据集源于对被子植物中广泛存在的去甲乌药碱合酶（Norcoclaurine synthases，NCS）的系统性研究，该研究旨在揭示生物碱生物合成途径在植物界的演化与分布规律。数据集由相关研究团队于近期构建，整合了大规模转录组学与质谱数据，核心研究问题聚焦于解析NCS酶在被子植物中的多样性及其在苄基异喹啉生物碱合成中的功能演化。这一工作不仅深化了植物次生代谢途径的认知，也为天然产物发现与合成生物学提供了关键数据资源。

当前挑战

该数据集致力于解决植物代谢组学中酶功能注释与进化分析的挑战，特别是针对NCS这类关键生物合成酶的鉴定与分类问题。在构建过程中，研究人员面临多源异构数据的整合难题，包括大规模质谱图谱的标准化处理、转录组序列的准确组装与注释，以及跨数据库的物种分类信息统一。此外，如何有效关联代谢产物谱与酶基因进化历史，以揭示功能与序列的演化关系，亦是数据集构建的核心技术挑战。

常用场景

经典使用场景

在植物代谢组学与合成生物学领域，AngioNCS数据集为研究去甲乌药碱合酶（NCS）在被子植物中的分布与进化提供了关键数据支撑。该数据集整合了大规模质谱谱图、转录组序列及系统发育信息，典型应用场景包括通过植物MASST工具进行代谢物谱匹配，以鉴定NCS相关生物碱的生物合成途径。研究人员可基于此数据集构建酶功能与植物类群间的关联网络，深入探索次生代谢产物的演化轨迹。

衍生相关工作

围绕AngioNCS数据集衍生的经典工作主要体现在多组学数据整合与代谢网络重建方面。例如，基于该数据集开发的植物MASST批量搜索流程，实现了大规模质谱数据的自动化注释；同时，其提供的系统发育树与基因表达数据相结合，促进了酶功能演化模型的构建。这些工作为植物代谢组学领域建立了可重复的分析框架，推动了计算代谢生物学方法的发展。

数据集最近研究