HANCOCK_MultimodalDataset
收藏github2024-06-03 更新2024-06-13 收录
下载链接:
https://github.com/ankilab/HANCOCK_MultimodalDataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个多模态的头颈癌数据集,包含血液数据、临床数据、病理数据、文本数据等多种数据类型,用于机器学习模型训练和预测治疗结果及选择。
This is a multimodal dataset on head and neck cancer, encompassing various data types such as blood data, clinical data, pathological data, and textual data, utilized for training machine learning models and predicting treatment outcomes and selections.
创建时间:
2024-05-13
原始信息汇总
数据集概述
数据集名称
- Multimodal head and neck cancer dataset
数据集结构
- Hancock_Dataset
- StructuredData
blood_data.jsonblood_data_reference_ranges.jsonclinical_data.jsonpathological_data.json
- TextData
historieshistories_englishicd_codesops_codesreportsreports_englishsurgery_descriptionssurgery_descriptions_english
- DataSplits_DataDictionaries
DataDictionary_blood.csvDataDictionary_clinical.csvDataDictionary_pathological.csvdataset_split_in.jsondataset_split_out.jsondataset_split_Oropharynx.jsondataset_split_treatment_outcome.json
- TMA_CellDensityMeasurements
TMA_celldensity_measurements.csv
- TMA_InvasionFront
- TMA_TumorCenter
- TMA_Maps
- WSI_LymphNode
- WSI_PrimaryTumor_Annotations
- WSI_PrimaryTumor_[Site]
- StructuredData
数据集下载
- 数据集可在项目网站下载:https://hancock.research.fau.eu/
数据集使用
- 提供Jupyter笔记本进行数据探索和分析,如
exploring_tabular_data.ipynb和survival_analysis.ipynb。 - 提供脚本进行多模态特征提取,如
create_multimodal_patient_vectors.py。 - 提供遗传算法生成数据分割,如
genetic_algorithm.py。 - 提供机器学习模型训练脚本,用于预测结果和治疗选择,如
outcome_prediction.py和adjuvant_treatment_prediction.py。
引用信息
- Dörrich, Marion, et al. "A multimodal dataset for precision oncology in head and neck cancer." medRxiv (2024): 2024-05. doi: https://doi.org/10.1101/2024.05.29.24308141
@article{doerrich2024multimodal, title={A multimodal dataset for precision oncology in head and neck cancer}, author={D{"o}rrich, Marion and Balk, Matthias and Heusinger, Tatjana and Beyer, Sandra and Kanso, Hassan and Matek, Christian and Hartmann, Arndt and Iro, Heinrich and Eckstein, Markus and Gostian, Antoniu-Oreste and others}, journal={medRxiv}, pages={2024--05}, year={2024}, publisher={Cold Spring Harbor Laboratory Press} }
搜集汇总
数据集介绍

构建方式
HANCOCK_MultimodalDataset的构建基于多模态数据,涵盖了头颈癌患者的临床、病理、血液数据、文本数据以及图像数据。数据集的结构化部分包括血液数据、临床数据和病理数据,以JSON格式存储。文本数据则包括病史、报告和手术描述等,图像数据包括组织微阵列(TMA)和全切片图像(WSI)。数据集的构建过程中,采用了多模态特征提取方法,将不同模态的数据整合为多模态患者向量,用于后续的机器学习模型训练和预测。
使用方法
使用HANCOCK_MultimodalDataset时,用户首先需要下载并解压数据集,建议按照推荐目录结构进行组织。数据集提供了多种工具和脚本,用于数据探索、特征提取和数据分割。用户可以通过提供的Jupyter Notebook进行数据可视化和生存分析,或使用Python脚本进行多模态特征提取和数据分割。对于机器学习模型的训练,数据集提供了预先分割的数据集和特征,用户可以直接使用这些数据进行模型训练和预测。
背景与挑战
背景概述
HANCOCK_MultimodalDataset,由德国FAU大学研究团队创建,专注于头颈癌的精准肿瘤学研究。该数据集于2024年发布,主要研究人员包括Marion Dörrich等,旨在通过多模态数据整合,提升对头颈癌患者治疗选择和预后预测的准确性。其核心研究问题涉及多模态数据的特征提取与机器学习模型的训练,以实现更精准的临床决策支持。此数据集的发布对头颈癌的个性化治疗和预后评估具有重要影响,推动了该领域的研究进展。
当前挑战
HANCOCK_MultimodalDataset在构建过程中面临多重挑战。首先,多模态数据的整合与特征提取是一个复杂的过程,涉及临床、病理、血液数据以及图像数据的融合,需克服数据异质性和不完整性。其次,数据分割的策略需确保训练集与测试集的分布合理,以避免模型过拟合或欠拟合。此外,模型的训练需在不同数据分割下进行多次,以验证其泛化能力。最后,数据集的使用需遵循特定的目录结构,这对用户的数据管理提出了一定要求。
常用场景
经典使用场景
HANCOCK_MultimodalDataset在头颈癌的精准医疗领域中展现了其经典应用。该数据集整合了多模态数据,包括临床、病理、血液数据以及影像数据,为研究人员提供了丰富的信息源。通过这些数据,研究者可以训练机器学习模型,预测患者的治疗结果和选择最佳治疗方案。这种多模态数据的融合不仅提升了模型的预测精度,还为个性化医疗提供了坚实的基础。
解决学术问题
HANCOCK_MultimodalDataset解决了头颈癌研究中的多个关键学术问题。首先,它通过整合多模态数据,克服了单一数据源的局限性,提升了预测模型的准确性和可靠性。其次,该数据集支持对不同治疗方案的效果进行评估,有助于优化治疗策略。此外,它还为研究多模态数据处理和特征提取提供了宝贵的资源,推动了相关领域的技术进步。
实际应用
在实际应用中,HANCOCK_MultimodalDataset为头颈癌的临床决策提供了重要支持。医生可以利用该数据集训练的模型,为患者提供个性化的治疗建议,从而提高治疗效果和患者生存率。此外,该数据集还可用于开发新的诊断工具和治疗方案,推动精准医疗的发展。通过这些应用,HANCOCK_MultimodalDataset显著提升了头颈癌治疗的科学性和有效性。
数据集最近研究
最新研究方向
在头颈癌精准医疗领域,HANCOCK_MultimodalDataset数据集的最新研究方向主要集中在多模态数据融合与特征提取上。研究者们致力于通过整合临床、病理、血液数据以及影像信息,构建多模态患者向量,以提升预测治疗效果和预后的准确性。此外,该数据集还推动了基于遗传算法的数据分割技术,旨在优化训练与测试集的划分,从而提高机器学习模型的泛化能力。这些研究不仅为头颈癌的个性化治疗提供了新的视角,也为多模态数据在医疗领域的应用开辟了新的道路。
以上内容由遇见数据集搜集并总结生成



