five

STimage-1K4M|空间转录组学数据集|生物信息学数据集

收藏
huggingface2024-08-22 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/jiawennnn/STimage-1K4M
下载链接
链接失效反馈
资源简介:
STimage-1K4M数据集是一个专门为空间转录组学研究设计的综合性数据集,包含1,149个空间转录组学切片,总计超过400万个带有配对基因表达数据的点。该数据集包括高分辨率的组织病理学图像、每个点的基因表达数据和空间坐标,以及用于数据处理和评估结果复现的代码文档。
创建时间:
2024-08-11
原始信息汇总

STimage-1K4M 数据集

概述

STimage-1K4M 数据集旨在促进空间转录组学领域的研究,结合高分辨率组织病理学图像和详细的基因表达数据。该数据集包含 1,149 张空间转录组学切片,总计超过 400 万个带有配对基因表达数据的点。

数据内容

  • 图像:高分辨率组织病理学图像。
  • 基因表达:与图像匹配的基因表达数据。
  • 空间坐标:每个点的空间坐标。

数据结构

数据集的结构如下: bash ├── annotation # 病理学家注释 ├── meta # 测试文件 │ ├── bib.txt # 包含数据集中所有研究的bibtex和pmid │ ├── meta_all_gene.csv # 元信息 ├── ST # 包含所有Spatial Transcriptomics技术的数据 │ ├── coord # 包含每个切片的点坐标和点半径 │ ├── gene_exp # 包含每个切片的基因表达 │ └── image # 包含每个切片的图像 ├── Visium # 包含所有Visium技术的数据,结构与ST相同 ├── VisiumHD # 包含所有VisiumHD技术的数据,结构与ST相同

引用

@misc{chen2024stimage1k4m, title={STimage-1K4M: A histopathology image-gene expression dataset for spatial transcriptomics}, author={Jiawen Chen and Muqing Zhou and Wenrong Wu and Jinwei Zhang and Yun Li and Didong Li}, year={2024}, eprint={2406.06393}, archivePrefix={arXiv}, primaryClass={cs.CV} }

许可证

所有代码均基于 MIT 许可证 - 详情请参阅 LICENSE.md 文件。

AI搜集汇总
数据集介绍
main_image_url
构建方式
STimage-1K4M数据集的构建基于空间转录组学领域的研究需求,整合了高分辨率组织病理学图像与详细的基因表达数据。该数据集包含1,149张空间转录组学切片,总计超过400万个具有配对基因表达数据的点。数据集的构建过程包括从多个研究来源收集数据,并通过标准化流程进行图像与基因表达数据的匹配,确保数据的准确性和一致性。数据结构的组织清晰,分别存储了注释、元数据、空间坐标、基因表达和图像数据,便于研究者进行多维度分析。
特点
STimage-1K4M数据集的特点在于其独特的多模态数据整合能力,将高分辨率组织病理学图像与基因表达数据紧密结合,为空间转录组学研究提供了丰富的资源。数据集涵盖了多种技术平台(如Spatial Transcriptomics、Visium和VisiumHD),并提供了详细的元数据信息,包括研究文献的BibTeX引用和基因表达元信息。此外,数据集的结构设计合理,便于用户快速定位所需数据,支持图像特征提取、图像分割和图像分类等多种任务。
使用方法
STimage-1K4M数据集的使用方法灵活多样,适用于多种研究场景。用户可以通过数据集提供的文件结构快速访问图像、基因表达数据和空间坐标信息。数据集支持图像特征提取、图像分割和图像分类等任务,研究者可以根据需求选择相应的技术平台(如Spatial Transcriptomics或Visium)进行深入分析。此外,数据集提供了详细的元数据和注释信息,便于用户进行数据验证和结果复现。通过结合CLIP和PLIP等开源工具,用户可以进一步优化模型训练和评估流程。
背景与挑战
背景概述
STimage-1K4M数据集于2024年由Jiawen Chen等人发布,旨在推动空间转录组学领域的研究。该数据集结合了高分辨率组织病理学图像与详细的基因表达数据,涵盖了1,149张空间转录组学切片,总计超过400万个带有配对基因表达数据的点。这一数据集不仅为研究人员提供了丰富的多模态数据资源,还为探索组织微环境中的基因表达模式与病理图像特征之间的关系提供了重要支持。STimage-1K4M的发布标志着空间转录组学与计算机视觉交叉领域的重大进展,为疾病诊断、药物开发及生物医学研究开辟了新的研究方向。
当前挑战
STimage-1K4M数据集在解决空间转录组学中的图像特征提取、分割与分类问题时,面临多重挑战。首先,高分辨率组织病理学图像与基因表达数据的多模态对齐需要高度精确的算法支持,以确保数据的一致性与可靠性。其次,数据规模庞大,超过400万个点的处理与分析对计算资源与算法效率提出了极高要求。此外,数据标注的复杂性也是一个显著挑战,病理学家的专业注释需要与自动化分析工具紧密结合,以确保数据的准确性与可解释性。这些挑战不仅推动了相关算法的创新,也为多模态数据融合研究提供了新的机遇。
常用场景
经典使用场景
STimage-1K4M数据集在空间转录组学研究中扮演着重要角色,其经典使用场景包括高分辨率组织病理学图像与基因表达数据的联合分析。研究人员可以通过该数据集深入探索细胞在组织中的空间分布及其基因表达模式,从而揭示疾病发生和发展的分子机制。
实际应用
在实际应用中,STimage-1K4M数据集被广泛用于癌症研究、神经科学和发育生物学等领域。例如,研究人员可以利用该数据集分析肿瘤微环境中的基因表达变化,识别潜在的生物标志物,从而为个性化医疗和精准治疗提供科学依据。
衍生相关工作
STimage-1K4M数据集衍生了许多经典研究工作,包括基于深度学习的图像分割和基因表达预测模型。这些研究不仅推动了空间转录组学技术的发展,还为多模态数据融合提供了新的思路。例如,基于该数据集的研究成果已被应用于开发更高效的病理图像分析工具和基因表达图谱构建方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作