sdrf-annotated-datasets
收藏github2026-04-29 更新2026-04-30 收录
下载链接:
https://github.com/bigbio/sdrf-annotated-datasets
下载链接
链接失效反馈官方服务:
资源简介:
社区SDRF注释的公共蛋白质组学数据集(ProteomeXchange及相关登录号)。此存储库的存在是为了让注释工作能够快速进行,而SDRF规范在`bigbio/proteomics-sample-metadata`中保持稳定。
Public proteomics datasets annotated with community-driven SDRF (ProteomeXchange and related accession numbers). This repository was established to facilitate rapid annotation efforts, while the SDRF specification remains stable within the `bigbio/proteomics-sample-metadata`.
创建时间:
2026-04-16
原始信息汇总
数据集概述
该数据集是一个社区驱动的 SDRF(样本元数据格式)注释数据集,专注于公共蛋白质组学数据集,主要涉及 ProteomeXchange 及其相关访问号。
核心信息
- 数据集名称:sdrf-annotated-datasets
- 许可证:Apache 2.0
- 数据来源:公共蛋白质组学数据集(ProteomeXchange 及相关系统)
- 存储结构:数据文件按照
datasets/{ACCESSION}/{ACCESSION}.sdrf.tsv的路径模式组织,例如datasets/PXD000070/PXD000070.sdrf.tsv和datasets/MSV000078494/MSV000078494.sdrf.tsv - 特殊布局:当项目需要拆分设计时,同一文件夹中可能出现额外的
.sdrf.tsv文件
关键资源链接
| 资源 | 地址 |
|---|---|
| SDRF 规范 | https://github.com/bigbio/proteomics-sample-metadata/blob/master/sdrf-proteomics/README.adoc |
| 公共网站 | https://sdrf.quantms.org/ |
| 模板 | https://github.com/bigbio/sdrf-templates |
| 验证器 CLI(parse_sdrf) | https://github.com/bigbio/sdrf-pipelines |
| 智能工具包 | https://github.com/bigbio/sdrf-skills |
开发与贡献
- 沙箱(Sandbox):进行中的注释文件存储在
sandbox/目录下;一旦文件通过parse_sdrf validate-sdrf验证,即可移至datasets/目录并提交 PR。 - 贡献方式:通过提交拉取请求(PR)添加或改进已注释的 SDRF 文件,具体规则见 CONTRIBUTING.md。
- 智能工具辅助注释:推荐使用 sdrf-skills 工具包,规则包括:每一行必须基于公开证据(如 PX 页面、已提交元数据、出版物),不虚构样本名或文件名;保持 PR 小巧;在本地运行验证;在 PR 描述中声明辅助工具使用情况。
- CI 验证:GitHub Actions 在每次 PR 或推送至
datasets/**时运行parse_sdrf validate-sdrf,验证器从 bigbio/sdrf-pipelines 的main分支安装。
引用方式
- Dai C, Füllgrabe A, Pfeuffer J, 等. A proteomics sample metadata representation for multiomics integration and big data analysis. Nat Commun. 2021;12(1):5854. doi: 10.1038/s41467-021-26111-3. Manuscript
- Perez-Riverol, Yasset, 等. "Towards a sample metadata standard in public proteomics repositories." Journal of Proteome Research (2020). Manuscript
搜集汇总
数据集介绍

构建方式
该数据集由社区协同构建,专注于为公共蛋白质组学数据集(如ProteomeXchange及相关收录号)提供标准化的SDRF(样品元数据格式)注释。数据集文件遵循统一的目录布局,即以收录号命名的文件夹下存放对应的.sdrf.tsv文件,例如datasets/PXD000070/PXD000070.sdrf.tsv。对于需要拆分设计的研究项目,同一文件夹内可包含多个.sdrf.tsv文件。尚在完善中的注释文件暂存于sandbox目录,待通过验证后移动至datasets目录并提交拉取请求,从而确保数据集的质量与一致性。
特点
该数据集的核心特点在于其社区驱动的协作模式与严格的验证机制。所有的样品注释均锚定于公开证据,如蛋白质组学实验页面、提交的元数据或已发表的文献,杜绝凭空杜撰。数据集采用分层管理策略,将已验证的数据集与开发中的草稿分离,并通过持续集成流程自动运行parse_sdrf validate-sdrf命令进行验证,确保每一份注释文件符合规范。此外,数据集鼓励使用基于人工智能的代理辅助工具进行高效注释,同时要求保持拉取请求规模小巧,以利于审查与整合。
使用方法
用户可直接从GitHub仓库的datasets目录下载所需的.sdrf.tsv文件,将其集成至蛋白质组学样品元数据解析工作流中。若需批量处理或自动化验证,建议安装并使用sdrf-pipelines工具包中的parse_sdrf命令行工具,该工具可在本地或持续集成环境中对SDRF文件进行语法与语义校验。对于希望贡献注释的用户,应借助sdrf-skills工具包,遵循每行数据基于公开证据的原则,在提交拉取请求前完成本地验证,并在描述中声明辅助工具的使用情况,以提升协作效率。
背景与挑战
背景概述
sdrf-annotated-datasets数据集由欧洲生物信息学研究所(EMBL-EBI)等机构的研究人员于2021年创建,核心团队包括Yasset Perez-Riverol、Cheng Dai等。该数据集旨在为公共蛋白质组学数据(如ProteomeXchange存储库中的数据)提供标准化的样本元数据注释,采用SDRF(Sample and Data Relationship Format)规范。其核心研究问题在于解决蛋白质组学数据中元数据描述不一致、缺乏互操作性的难题,促进多组学整合与大数据分析。该数据集对蛋白质组学领域产生了深远影响,成为社区驱动的标准化典范,被广泛应用于数据重分析、机器学习建模及跨平台数据融合,显著提升了公共数据的可复用性和科学价值。
当前挑战
该数据集所解决的领域问题包括蛋白质组学元数据的碎片化和异构性。公共存储库中样本注释格式不统一,阻碍了跨研究比较和整合分析。构建过程中面临的核心挑战有:第一,从海量、分散的原始提交元数据中提取准确且完整的样本信息,需人工核查与自动化工具结合;第二,确保注释与公开证据(如发表文献)严格锚定,避免虚假信息;第三,处理复杂实验设计(如多批次、多分型)时,维持SDRF规范的灵活性与一致性;第四,通过CI验证(如parse_sdrf工具)实现质量管控,但社区贡献者的标准差异增加了维护难度。
常用场景
经典使用场景
在蛋白质组学领域,公共数据库中海量数据集因缺乏统一、结构化的样本元数据描述,严重阻碍了跨实验、跨平台的数据整合与再利用。sdrf-annotated-datasets 数据集作为社区驱动的核心资源,以 SDRF(Sample and Data Relationship Format)标准化格式系统性地注释了 ProteomeXchange 等公共存储库中的蛋白质组学项目。研究人员通过该数据集可便捷地获取经过完整注释的样本来源、质谱仪器、前处理流程及生物条件等元数据,实现了对大规模蛋白质组数据集的高效检索、比较与重复分析,成为多组学整合研究中不可或缺的元数据基石。
实际应用
在实际应用中,sdrf-annotated-datasets 已被深度嵌入多项蛋白质组学数据管线和工具链。例如,结合 quantms 工作流,研究人员可利用其标准元数据直接启动标准化定量分析;在 multi-omics Hub 等集成项目中,该数据集作为连接蛋白质组与转录组、代谢组数据的桥梁,实现跨组学样本信息的无缝对齐。此外,制药与生物标志物筛选领域利用这些注释数据快速筛选符合特定临床条件的公共数据集,极大缩短了验证性研究的研发周期,降低了原始实验重复成本。
衍生相关工作
围绕该数据集已衍生出多个标志性工作与工具生态。sdrf-pipelines 项目提供了 parse_sdrf 命令行工具与校验框架,确保注释文件格式的严谨性;sdrf-templates 则为不同质谱实验设计提供了可复用的元数据模板;sdrf-skills 进一步开发了智能体辅助注释工具,实现半自动化标注。在学术产出方面,Dai 等人发表的《Nature Communications》论文系统论证了 SDRF 表示法在多组学整合中的优势,Perez-Riverol 等在《Journal of Proteome Research》中提出的元数据标准化理念,均直接依托于该数据集成果,后续不断有研究基于其标准化元数据进行大规模数据重分析、泛癌种蛋白质组学比较等前沿探索。
以上内容由遇见数据集搜集并总结生成



