five

STimage-1K4M - 空间转录组图像基因表达数据集

收藏
github2024-06-11 收录
下载链接:
https://github.com/JiawenChenn/STimage-1K4M
下载链接
链接失效反馈
官方服务:
资源简介:
STimage-1K4M数据集,由北卡罗来纳大学构建,旨在通过提供子图像瓦片的基因表达信息,填补现有医学图像文本数据集中的描述不足。该数据集包含了1,149张图像,这些图像是从空间转录组数据中提取的,能够捕捉到病理图像中每个独立空间点的基因表达信息。每张图像都被细分为更小的子图像瓦片,每个瓦片都配有15,000到30,000维的基因表达数据。数据集中总共有4,293,195对子图像和基因表达,提供了前所未有的细节粒度,为多模态数据分析和计算病理学等领域的先进研究铺平了道路。基于STimage-1K4M数据集,研究人员可以更深入地理解病理图像与基因表达之间的复杂关系,从而推动个性化医疗和自动化病理工具的发展。

The STimage-1K4M dataset, constructed by the University of North Carolina, aims to address the descriptive inadequacies in existing medical image-text datasets by providing gene expression information for sub-image tiles. This dataset comprises 1,149 images extracted from spatial transcriptomic data, capturing the gene expression information at each individual spatial point within pathological images. Each image is subdivided into smaller sub-image tiles, with each tile accompanied by gene expression data ranging from 15,000 to 30,000 dimensions. In total, the dataset contains 4,293,195 pairs of sub-images and gene expressions, offering an unprecedented level of detail granularity, thereby paving the way for advanced research in fields such as multimodal data analysis and computational pathology. Leveraging the STimage-1K4M dataset, researchers can gain deeper insights into the complex relationships between pathological images and gene expressions, thus advancing the development of personalized medicine and automated pathological tools.
提供机构:
北卡罗来纳大学
创建时间:
2024-05-28
原始信息汇总

STimage-1K4M Dataset 概述

数据集描述

STimage-1K4M 数据集包含1,149张空间转录组学切片,总计超过400万个点,每个点都配有基因表达数据。数据集内容包括:

  • 高分辨率组织病理学图像。
  • 与图像匹配的基因表达概况。
  • 每个点的空间坐标。

数据结构

数据集的结构组织如下:

bash ├── annotation # 病理学家注释 ├── meta # 元数据文件 │ ├── bib.txt # 包含数据集中所有研究的PMID的BibTeX文件 │ ├── meta_all_gene.csv # 元信息 ├── ST # 包含Spatial Transcriptomics技术的所有数据 │ ├── coord # 包含每个切片的点坐标和点半径 │ ├── gene_exp # 包含每个切片的基因表达 │ └── image # 包含每个切片的图像 ├── Visium # 包含Visium技术的所有数据,结构与ST相同 ├── VisiumHD # 包含VisiumHD技术的所有数据,结构与ST相同

引用信息

@misc{chen2024stimage1k4m, title={STimage-1K4M: A histopathology image-gene expression dataset for spatial transcriptomics}, author={Jiawen Chen and Muqing Zhou and Wenrong Wu and Jinwei Zhang and Yun Li and Didong Li}, year={2024}, eprint={2406.06393}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总
数据集介绍
main_image_url
构建方式
在空间转录组学领域,STimage-1K4M数据集的构建旨在整合高分辨率组织病理学图像与详细的基因表达数据。该数据集包含1,149个空间转录组切片,总计超过400万个点,每个点均配对有基因表达数据和空间坐标。通过精细的组织病理学图像与基因表达数据的匹配,该数据集为研究者提供了丰富的空间转录组学研究资源。
特点
STimage-1K4M数据集的显著特点在于其大规模和高分辨率的数据整合。不仅包含了大量的空间转录组切片,还提供了每个点的基因表达数据和空间坐标,使得研究者能够深入分析基因表达与组织结构之间的关联。此外,数据集的结构化存储方式,如按技术类型(ST、Visium、VisiumHD)分类,进一步提高了数据的可访问性和使用效率。
使用方法
研究者可通过访问Hugging Face平台或填写Google表单获取STimage-1K4M数据集的下载链接。数据集的结构化存储方式使得数据易于检索和处理,包括病理学家注释、元信息文件、基因表达数据和图像等。研究者可根据需要选择相应的技术类型数据进行分析,并通过提供的文档进行数据处理和结果复现。
背景与挑战
背景概述
空间转录组学作为生物医学研究的前沿领域,旨在通过结合高分辨率组织病理图像与基因表达数据,揭示细胞在组织中的空间分布及其功能状态。STimage-1K4M数据集由Jiawen Chen等研究人员于2024年创建,该数据集包含了1,149个空间转录组切片,总计超过400万个spots,每个spot均配有基因表达数据和空间坐标。这一数据集的构建不仅为空间转录组学研究提供了丰富的资源,还为病理学与基因表达的联合分析开辟了新的研究路径,极大地推动了该领域的发展。
当前挑战
STimage-1K4M数据集在构建过程中面临多重挑战。首先,数据集的规模庞大,涉及高分辨率图像与海量基因表达数据的精确匹配,这对数据处理和存储技术提出了高要求。其次,空间坐标的准确性直接影响到后续分析的可靠性,因此确保每个spot的空间定位精度是一个关键挑战。此外,数据集的多样性和复杂性要求研究者开发新的算法和模型,以有效整合图像与基因表达数据,从而提取有价值的生物学信息。
常用场景
经典使用场景
在空间转录组学领域,STimage-1K4M数据集以其丰富的图像和基因表达数据,成为研究者探索组织微环境与基因表达关系的重要工具。该数据集通过整合高分辨率病理图像与详细的基因表达数据,使得研究者能够精确分析特定组织区域内的基因表达模式,从而揭示疾病发生与发展的分子机制。
解决学术问题
STimage-1K4M数据集解决了空间转录组学研究中长期存在的数据整合难题。通过提供匹配的图像与基因表达数据,该数据集使得研究者能够更准确地定位基因表达与组织结构之间的关系,推动了疾病病理学、肿瘤学及生物信息学等多个领域的研究进展。
衍生相关工作
基于STimage-1K4M数据集,研究者已开展多项相关工作。例如,有研究利用该数据集开发了新的图像分析算法,以提高基因表达数据的解析精度。此外,还有研究团队利用该数据集构建了疾病预测模型,进一步推动了空间转录组学在临床应用中的发展。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务