five

MMIST-ccRCC

收藏
arXiv2024-05-03 更新2024-06-24 收录
下载链接:
https://multi-modal-ist.github.io/datasets/ccRCC/
下载链接
链接失效反馈
官方服务:
资源简介:
MMIST-ccRCC数据集是由系统与机器人研究所等机构创建,包含来自618名ccRCC患者的多种医疗数据,如CT、MRI、组织病理学、基因组学和临床数据。数据集反映了真实世界的医疗场景,包括不同患者间缺失的数据模式。创建过程涉及从TCGA、TCIA和CPTAC等公共数据库中精选数据。该数据集主要用于预测患者12个月生存率,通过多模态数据融合和处理缺失数据的方法,提高预测准确性。

The MMIST-ccRCC dataset was developed by the Institute of Systems and Robotics and other relevant institutions. It encompasses diverse multimodal medical data from 618 patients with clear cell renal cell carcinoma (ccRCC), including CT, MRI, histopathological, genomic, and clinical data. The dataset reflects real-world clinical scenarios, featuring heterogeneous missing data patterns across different patients. Its curation process involved screening high-quality data from public databases such as The Cancer Genome Atlas (TCGA), The Cancer Imaging Archive (TCIA), and the Clinical Proteomic Tumor Analysis Consortium (CPTAC). This dataset is primarily intended for predicting the 12-month survival rate of patients, with approaches including multimodal data fusion and missing data handling adopted to improve prediction accuracy.
提供机构:
系统与机器人研究所,LARSyS,高等技术研究所,葡萄牙
创建时间:
2024-05-03
搜集汇总
数据集介绍
main_image_url
构建方式
MMIST-ccRCC数据集的构建方式涉及从TCGA、TCIA和CPTAC等多个数据源中收集和整理数据。该数据集包括618位患有透明细胞肾细胞癌(ccRCC)患者的放射学(CT和MRI)、组织病理学、基因组学和临床数据。数据集的构建过程中,研究人员对每个模态的数据进行了筛选和预处理,以确保数据的一致性和可用性。此外,为了处理不同患者之间模态缺失的情况,研究人员采用了基于多示例学习(MIL)的策略来选择最合适的扫描图像,并开发了一种生成方法来重建缺失模态的潜在特征向量。
使用方法
MMIST-ccRCC数据集的使用方法包括以下步骤:首先,研究人员可以从数据集中选择单个或多个模态的数据进行特征提取。其次,为了处理患者之间模态缺失的情况,研究人员可以采用基于MIL的策略来选择最合适的扫描图像,并使用生成方法来重建缺失模态的潜在特征向量。然后,研究人员可以将提取的特征向量进行多模态数据融合,并使用分类器进行生存预测。最后,研究人员可以根据实验结果对多模态系统的性能进行评估和优化。MMIST-ccRCC数据集的使用方法为多模态医学研究提供了明确的指导和实践基础。
背景与挑战
背景概述
在当今医学领域,个性化医疗逐渐成为趋势,以取代传统的“一刀切”方法。为了实现这一目标,医学研究正朝着多模态数据的方向发展,这些数据涵盖了分子、放射学和病理学等多个方面。然而,尽管多模态数据在理论上是理想的,但由于缺乏可用的数据集、难以确定最佳的多模态融合策略以及患者之间缺少模态等问题,大多数方法仍然专注于探索单一或一对模态。为了解决这些问题,Tiago Mota等人于2024年5月提出了一个名为MMIST-ccRCC的实时多模态数据集,该数据集包括来自618名透明细胞肾细胞癌(ccRCC)患者的2种放射学模态(CT和MRI)、病理学、基因组学和临床数据。该数据集旨在为12个月生存预测任务提供单一和多种模态(早期和晚期融合)的基准,并解决了患者中缺少一种或多种模态的挑战性场景。
当前挑战
MMIST-ccRCC数据集面临的挑战包括:1)所解决的领域问题,即多模态数据融合以预测患者的12个月生存率;2)构建过程中所遇到的挑战,例如不同数据源之间的数据整合、数据缺失问题以及选择最佳扫描/病理切片的困难。此外,该数据集还面临着如何有效地融合不同模态的数据以及如何处理缺失数据的问题。为了应对这些挑战,研究人员提出了基于多实例学习(MIL)的策略来选择最佳的CT和MRI扫描,并采用生成方法来重建缺失模态的潜在特征向量。实验结果表明,即使存在严重的数据缺失,模态融合也能提高生存预测的准确性。
常用场景
经典使用场景
MMIST-ccRCC数据集是一个真实世界的多模态数据集,包含618名肾透明细胞癌(ccRCC)患者的放射学(CT和MRI)、组织病理学、基因组和临床数据。该数据集的经典使用场景是预测患者12个月的生存率。为了应对患者中存在缺失模态数据的挑战,该数据集提供了单模态和多种融合(早期和晚期融合)的基准测试。此外,为了处理缺失模态数据,该数据集采用了一种生成方法,生成缺失模态的潜在特征向量,进一步提高了预测性能。
解决学术问题
MMIST-ccRCC数据集解决了多模态医学研究中存在的几个关键问题。首先,缺乏易于使用的经过精心整理的多模态数据集限制了多模态方法的研究。其次,难以确定最佳的多模态融合策略。最后,患者之间缺失模态数据的问题也限制了多模态方法的应用。MMIST-ccRCC数据集的发布为研究人员提供了处理这些问题的工具和基准数据,有助于推动多模态医学研究的发展。
实际应用
MMIST-ccRCC数据集的实际应用场景包括但不限于:1)预测ccRCC患者的12个月生存率,为个性化医疗提供支持;2)开发新的多模态融合策略,提高医学图像分析的准确性;3)研究多模态数据之间的互补性和冗余性,为癌症治疗提供新的思路。该数据集的发布有助于推动多模态医学研究的发展,并为临床实践提供有价值的信息。
数据集最近研究
最新研究方向
MMIST-ccRCC 数据集的发布为多模态医学数据集研究提供了新的方向。该数据集涵盖了包括 CT、MRI、组织病理学、基因组学和临床数据在内的多种模态,为解决现实世界中数据缺失问题提供了宝贵的资源。该数据集的发布旨在推动多模态融合策略的研究,特别是在癌症患者预后预测方面的应用。此外,该数据集还支持了生成模型在处理缺失数据方面的研究,为解决临床数据中常见的数据缺失问题提供了新的思路。
相关研究论文
  • 1
    MMIST-ccRCC: A Real World Medical Dataset for the Development of Multi-Modal Systems系统与机器人研究所,LARSyS,高等技术研究所,葡萄牙 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作