The Celiac Microbiome Repository (CMR)
收藏github2025-12-04 更新2025-12-05 收录
下载链接:
https://github.com/CeliacMicrobiomeRepo/celiac-repository
下载链接
链接失效反馈官方服务:
资源简介:
乳糜泻微生物组存储库(CMR)是一个全面收集与乳糜泻相关的肠道微生物组测序数据集的综合集合。当前版本为1.0,包含来自13个国家和5个身体部位的28个数据集,共计1,140个乳糜泻患者样本和136个未来会发展为乳糜泻的个体样本。
The Celiac Microbiome Repository (CMR) is a comprehensive collection of gut microbiome sequencing datasets associated with celiac disease. Its current version 1.0 contains 28 datasets from 13 countries and 5 body sites, totaling 1,140 samples from patients with celiac disease and 136 samples from individuals who will later develop celiac disease.
创建时间:
2025-12-04
原始信息汇总
乳糜泻微生物组存储库数据集概述
数据集基本信息
- 数据集名称:乳糜泻微生物组存储库
- 简称:CMR
- 当前版本:1.0
- 版本更新日期:截至2025年7月15日
- 项目性质:持续更新的开源项目
数据集目标与收录标准
- 目标:全面整合与乳糜泻相关的肠道微生物组高通量测序数据集。
- 收录标准:
- 数据来源于经同行评审的出版物。
- 数据类型为人类肠道微生物组的16S rRNA或全宏基因组测序数据。
- 样本为来自确诊或即将确诊乳糜泻个体的体内样本。
- 必须同时提供原始测序读段和基本样本元数据。
数据集内容与规模(版本 1.0)
- 包含研究数量:28个数据集。
- 地理分布:覆盖13个国家。
- 样本部位:涵盖5个身体部位。
- 样本总数:1,140个来自确诊乳糜泻个体的样本,以及136个来自未来会发展为乳糜疾病个体的样本。
数据文件与结构
元数据文件
included_datasets.tsv:包含当前版本收录的所有数据集信息。excluded_datasets.tsv:包含符合条件但未能收录的所有数据集/研究信息。all_samples.tsv:包含included_datasets.tsv中所有数据集的所有样本信息。low_read_samples.tsv:包含all_samples.tsv中经过DADA2处理后最终读段数少于1000的所有样本信息。
原始测序数据
- 大多数数据集的原始读段可在SRA获取(SRA编号见
included_datasets.tsv)。 - 三个例外数据集:
16S_119_Salamon:原始数据发布于https://portalwiedzy.cm-uj.krakow.pl/info/researchdata/UJCM77a8979a493e4aacbdceefa5121abbff/16S_27_Fornasaro:原始数据直接来自作者。16S_5_Senicar:原始数据直接来自作者。
处理脚本目录
raw_data_scripts/:包含下载和修剪原始测序数据的Python脚本。16S_scripts/:包含处理16S测序数据的R脚本,针对不同测序平台(454、Ion Torrent、Illumina双端/单端)优化。SG_scripts/:包含处理鸟枪法宏基因组测序数据的Python脚本,用于宿主读段去除和分类学分析。
已处理数据集目录
16S_Datasets/:包含所有16S rRNA测序数据集子目录。每个子目录包含DADA2流程的输出文件,如ASV丰度表、分类学鉴定结果、序列文件和质量控制报告。SG_datasets/:包含所有已处理的鸟枪法宏基因组测序数据集子目录。每个子目录包含宿主读段去除后的FASTQ文件、MetaPhlAn分类学分析结果及合并的丰度表。
相关资源
- 网络应用:基于CMR数据的R Shiny网络应用,用于数据可视化和探索。访问地址:https://celiac.shinyapps.io/celiac-webapp/
- 版本文档:版本1.0的详细文档位于:https://github.com/CeliacMicrobiomeRepo/celiac-repository/blob/main/version_docs/repo_version_1.0.md
- 网络应用代码仓库:https://github.com/CeliacMicrobiomeRepo/celiac-webapp/tree/main
未来发展方向
- 更新近期发表的数据。
- 扩展至功能谱分析(如HUMAnN 3.0, PICRUSt2)。
许可与依赖
- 仓库代码许可:GNU Affero General Public License v3.0 (AGPL-3.0)。
- 数据处理依赖:包括Python、R及相关生物信息学工具包(如SRAtoolkit、FastQC、Trimmomatic、Cutadapt、Bowtie2、MetaPhlAn4、Mothur等),各工具遵循其各自的许可证。
作者与联系
- Haig Bishop:haig.bishop@pg.canterbury.ac.nz
- Peter Prendergast:peter.prendergast@pg.canterbury.ac.nz
- 合作意向:欢迎对扩展CMR感兴趣的研究者联系,涉及新的文献检索、数据处理(使用/构建现有流程)和新版本文档编写。
搜集汇总
数据集介绍

构建方式
在微生物组学研究领域,整合多源数据对于深入理解疾病机制至关重要。乳糜泻微生物组资源库(CMR)的构建遵循严格的纳入标准,系统性地收集了截至2025年7月15日所有经过同行评审、涉及乳糜泻患者肠道微生物组的高通量测序研究。该资源库涵盖了16S rRNA和全宏基因组测序数据,要求原始测序读段和基本样本元数据均可获取。通过自动化脚本从NCBI SRA等公共数据库下载数据,并利用定制化的生物信息学流程(如DADA2、MetaPhlAn4)进行标准化处理,确保了数据的一致性与可比性。
特点
CMR作为乳糜泻微生物组数据的综合性资源,其突出特点在于全球范围的广泛覆盖与前瞻性样本的纳入。当前版本1.0整合了来自13个国家、5个身体部位的28项研究,包含1,140例确诊样本及136例未来发病样本,提供了跨地域与疾病进程的独特视角。数据集不仅提供处理后的特征表与分类学注释,还保留了原始测序文件与完整元数据,支持多层次分析。此外,配套的R Shiny交互式网络应用实现了数据的可视化探索,增强了资源的可访问性与科研实用性。
使用方法
研究人员可通过GitHub仓库获取CMR的完整数据与处理脚本,利用提供的元数据文件进行样本筛选与分组分析。对于16S rRNA数据,可利用phyloseq等R包导入ASV丰度表进行多样性计算与差异丰度检验;宏基因组数据则支持基于GTDB或MetaPhlAn4谱系的功能与分类学探索。数据集已预处理的标准化输出可直接用于机器学习建模或跨研究荟萃分析。用户还可通过开源网络应用交互式查询样本分布与微生物组成,或依据文档中的流程复现与扩展数据处理步骤。
背景与挑战
背景概述
乳糜泻作为一种自身免疫性疾病,其发病机制与肠道微生物组的失调密切相关。随着高通量测序技术的普及,相关研究数据呈现爆发式增长,但数据分散且缺乏统一整合,阻碍了系统性分析。在此背景下,坎特伯雷大学的研究团队于2025年7月15日发布了乳糜泻微生物组资源库(CMR)1.0版本。该资源库致力于全面整合全球范围内与乳糜泻相关的肠道微生物组测序数据,涵盖16S rRNA和宏基因组数据,旨在构建一个开放、持续更新的标准化数据集合,以支持疾病进展机制、微生物标志物发现及跨地域比较等核心科学问题的探索,为乳糜泻的精准医学研究提供关键基础设施。
当前挑战
该数据集致力于解决乳糜泻微生物组研究中的关键挑战,即从高度异质、分散的数据中提炼出稳健的生物学规律。具体挑战包括:数据来源的异质性,不同研究在测序平台、实验设计、样本部位(如粪便与十二指肠)及人群地理分布上存在显著差异,增加了数据整合与比较分析的难度;前瞻性样本稀缺,能够捕捉疾病发展轨迹的纵向数据有限,制约了对疾病因果关系的深入解析。在构建过程中,挑战主要源于数据获取与处理的复杂性,部分原始数据需从作者处直接获取或通过非标准渠道访问,且需针对454、Ion Torrent和Illumina等不同测序平台定制化处理流程,确保从原始数据到可分析特征的高质量、一致性转换。
常用场景
经典使用场景
在肠道微生物组研究领域,乳糜泻作为一种自身免疫性疾病,其发病机制与肠道菌群失调密切相关。乳糜泻微生物组资源库(CMR)的经典使用场景在于为研究人员提供了一个经过系统整合和标准处理的全球性数据集合,涵盖了来自13个国家、5个不同身体部位的1140个乳糜泻患者样本及136个前瞻性样本。研究者可利用该数据集进行跨研究的荟萃分析,通过差异丰度分析、多样性指标比较等方法,系统探究乳糜泻发展过程中粪便和十二指肠微生物组的动态变化规律,从而揭示疾病进展与特定微生物类群之间的潜在关联。
实际应用
在实际应用层面,乳糜泻微生物组资源库通过其配套的R Shiny网络应用程序,为临床医生和转化医学研究者提供了直观的数据探索与可视化工具。该应用允许用户交互式地查询不同地理区域、疾病阶段和身体部位的微生物组成特征,辅助识别具有诊断潜力的生物标志物。这些发现可进一步转化为非侵入性的诊断试剂开发,例如基于粪便微生物特征的检测方法,以补充或优化现有的血清学和组织病理学诊断流程,最终实现乳糜泻的早期筛查、个性化治疗监测以及饮食干预效果的评估。
衍生相关工作
基于乳糜泻微生物组资源库的丰富数据,已衍生出一系列重要的相关研究工作。其核心贡献体现在利用该资源库进行的综合性分析项目,该项目系统比较了16S rRNA和鸟枪法宏基因组数据,探索了全球范围内乳糜泻病程中的微生物组演变。此外,该数据集为开发新的生物信息学分析流程(如针对不同测序平台的DADA2优化脚本)和标准化预处理方法提供了实践基础。未来,随着数据集的持续更新和功能分析模块(如HUMAnN 3.0和PICRUSt2)的扩展,预计将催生更多关于乳糜泻微生物组功能潜能与宿主代谢相互作用机制的前沿研究。
以上内容由遇见数据集搜集并总结生成



