TCGA-PAAD

Hugging Face2024-10-19 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/HLMCC/TCGA-PAAD

下载链接

链接失效反馈

官方服务：

资源简介：

TCGA-PAAD临床数据集包含与胰腺腺癌患者相关的临床数据。该数据集是TCGA项目的一部分，旨在为各种类型的癌症提供全面的基因组和临床数据。临床数据包括患者的人口统计学信息、治疗历史、生存数据和其他与胰腺癌研究相关的临床属性。该数据集主要用于研究和分析目的，特别是用于构建机器学习模型，以基于临床属性预测生存、复发或治疗反应等结果。

The TCGA-PAAD clinical dataset contains clinical data associated with patients with pancreatic adenocarcinoma. This dataset is part of the TCGA (The Cancer Genome Atlas) program, which aims to provide comprehensive genomic and clinical data for various types of cancer. The clinical data includes patients' demographic information, treatment history, survival data, and other clinical attributes relevant to pancreatic cancer research. This dataset is primarily used for research and analytical purposes, particularly for constructing machine learning models to predict outcomes such as survival, recurrence, or treatment response based on clinical attributes.

创建时间：

2024-10-15

原始信息汇总

TCGA-PAAD Clinical Data 数据集概述

数据集简介

TCGA-PAAD（The Cancer Genome Atlas - Pancreatic Adenocarcinoma）临床数据集包含与胰腺腺癌患者相关的临床数据。该数据集是TCGA项目的一部分，旨在为各种类型的癌症提供全面的基因组和临床数据。临床数据包括患者的人口统计学信息、治疗历史、生存数据以及其他与胰腺癌研究相关的临床属性。该数据集主要用于研究和分析目的，特别是用于构建机器学习模型，以基于临床属性预测生存、复发或治疗反应等结果。

目标

开发一个机器学习模型，使用临床数据预测胰腺腺癌（PAAD）患者的生存率。该模型将使用C-Index（一致性指数）进行评估，这是一种特别适合测量生存模型准确性的指标。

背景

胰腺癌具有最高的死亡率之一，基于临床数据准确预测患者生存可以帮助制定治疗计划和患者护理。数据集包含各种临床变量，如人口统计信息、治疗历史和生存时间，这些将作为模型中的预测因子。

任务详情

模型类型：回归
目标变量：患者生存时间（通常以天或月为单位）
评估指标：C-Index（一致性指数），用于评估生存模型的预测准确性。它评估预测生存时间与实际生存时间在患者对之间的吻合程度。

为什么选择C-Index？

C-Index通常用于生存分析，因为它反映了模型在区分患者对之间，预测谁将存活更长时间的能力。在处理临床生存数据中常见的截尾数据时，它比典型的回归指标（如均方误差MSE）具有优势。

数据集注意事项

数据分割：数据集随机分为训练集（70%）、验证集（15%）和测试集（15%）。训练集和验证集包含所有临床变量，而测试集的临床变量被移除，以模拟真实世界的测试场景。
隐私：数据集遵循隐私标准，因为它是匿名的。
数据不平衡：由于生存率和临床结果通常是偏斜的，因此在模型训练过程中必须考虑这一点，以避免对多数类（生存时间较短的患者）的偏见。

使用示例

python import pandas as pd

splits = { "train": "train_data.parquet", "validation": "val_data.parquet", "test": "test_data.parquet", }

train_df = pd.read_parquet("hf://datasets/HLMCC/TCGA-PAAD/" + splits["train"]) validation_df = pd.read_parquet("hf://datasets/HLMCC/TCGA-PAAD/" + splits["validation"]) test_df = pd.read_parquet("hf://datasets/HLMCC/TCGA-PAAD/" + splits["test"])

引用

本研究中使用的数据来自The Cancer Genome Atlas（TCGA）研究网络：https://www.cancer.gov/tcga。如果您在工作中使用此数据集，请引用TCGA研究网络：

bash The Cancer Genome Atlas Research Network. (2017). Comprehensive and Integrated Genomic Characterization of Pancreatic Ductal Adenocarcinoma. Cancer Cell, 32(2), 185-203.e13. https://doi.org/10.1016/j.ccell.2017.07.007

数据集管理员

该数据集由TCGA联盟整理和准备，并由Moffitt癌症中心处理，以便于机器学习应用。

搜集汇总

数据集介绍

构建方式

TCGA-PAAD临床数据集源自癌症基因组图谱（TCGA）项目，专注于胰腺导管腺癌（PAAD）患者的临床数据。该数据集通过整合患者的临床记录，包括人口统计信息、治疗历史、生存数据等，构建了一个全面的临床数据资源。数据集的构建过程严格遵循隐私保护标准，确保所有患者信息均经过匿名化处理。此外，数据集被随机划分为训练集（70%）、验证集（15%）和测试集（15%），以支持机器学习模型的开发与评估。

特点

TCGA-PAAD临床数据集的特点在于其涵盖了胰腺导管腺癌患者的多样化临床属性，为癌症研究提供了丰富的分析维度。数据集中的关键变量包括生存时间、最后一次随访时间以及生存状态，这些变量为生存分析提供了重要依据。此外，数据集的设计考虑了数据泄露问题，测试集中移除了与患者预后直接相关的变量，以模拟真实世界的预测场景。数据集的隐私保护和数据平衡性也为模型训练提供了可靠的基础。

使用方法

TCGA-PAAD临床数据集主要用于开发预测胰腺导管腺癌患者生存率的机器学习模型。用户可以通过加载训练集、验证集和测试集进行模型训练与评估。模型的目标变量为患者的风险评分或相对生存预测，评估指标采用C-Index（一致性指数），以衡量模型在生存时间预测中的准确性。使用该数据集时，需注意数据集的划分和测试集中移除的变量，以确保模型的泛化能力。此外，用户需在提交预测结果时包含患者ID和预测评分两列，以符合评估要求。

背景与挑战

背景概述

TCGA-PAAD临床数据集源自癌症基因组图谱（TCGA）项目，专注于胰腺导管腺癌（PAAD）的临床数据研究。该数据集由TCGA研究网络于2017年发布，旨在为胰腺癌的基因组和临床研究提供全面支持。数据集涵盖了患者的 demographics、治疗历史、生存数据等关键临床属性，为胰腺癌的预后分析和治疗策略优化提供了重要依据。TCGA-PAAD数据集在癌症研究领域具有广泛影响力，特别是在生存分析和机器学习模型构建方面，为研究人员提供了丰富的临床数据资源。

当前挑战

TCGA-PAAD数据集在应用过程中面临多重挑战。首先，胰腺癌的高死亡率使得生存预测模型的构建尤为复杂，需要处理高度不平衡的数据分布，避免模型偏向于多数类（即生存时间较短的患者）。其次，数据集中的生存数据常包含截尾现象，这对传统的回归评估指标（如均方误差）提出了挑战，需采用C-Index等专门针对生存分析的评估方法。此外，在模型测试阶段，为防止数据泄露，需移除与患者预后直接相关的列，这增加了模型在真实场景中应用的难度。数据集的构建过程中，还需严格遵循隐私保护标准，确保患者信息的匿名化处理。

常用场景

经典使用场景

TCGA-PAAD临床数据集在胰腺癌研究领域中具有重要地位，主要用于构建机器学习模型以预测患者的生存率、复发率或对治疗的反应。该数据集通过整合患者的临床属性，如人口统计信息、治疗历史和生存数据，为研究人员提供了一个全面的分析平台。特别是在生存分析任务中，该数据集被广泛用于训练和评估回归模型，以预测患者的生存时间。

衍生相关工作

TCGA-PAAD数据集衍生了许多经典的研究工作，特别是在胰腺癌的生存分析和机器学习模型开发领域。例如，基于该数据集的研究开发了多种预测模型，用于评估患者的生存风险和复发概率。此外，该数据集还被用于探索胰腺癌的分子标志物和基因表达谱，为胰腺癌的早期诊断和治疗提供了新的思路。这些研究不仅推动了胰腺癌领域的学术进展，也为临床实践提供了重要的参考依据。

数据集最近研究