five

TCGA-PAAD|癌症研究数据集|临床数据分析数据集

收藏
huggingface2024-10-19 更新2024-12-12 收录
癌症研究
临床数据分析
下载链接:
https://huggingface.co/datasets/HLMCC/TCGA-PAAD
下载链接
链接失效反馈
资源简介:
TCGA-PAAD临床数据集包含与胰腺腺癌患者相关的临床数据。该数据集是TCGA项目的一部分,旨在为各种类型的癌症提供全面的基因组和临床数据。临床数据包括患者的人口统计学信息、治疗历史、生存数据和其他与胰腺癌研究相关的临床属性。该数据集主要用于研究和分析目的,特别是用于构建机器学习模型,以基于临床属性预测生存、复发或治疗反应等结果。
创建时间:
2024-10-15
原始信息汇总

TCGA-PAAD Clinical Data 数据集概述

数据集简介

TCGA-PAAD(The Cancer Genome Atlas - Pancreatic Adenocarcinoma)临床数据集包含与胰腺腺癌患者相关的临床数据。该数据集是TCGA项目的一部分,旨在为各种类型的癌症提供全面的基因组和临床数据。临床数据包括患者的人口统计学信息、治疗历史、生存数据以及其他与胰腺癌研究相关的临床属性。该数据集主要用于研究和分析目的,特别是用于构建机器学习模型,以基于临床属性预测生存、复发或治疗反应等结果。

目标

开发一个机器学习模型,使用临床数据预测胰腺腺癌(PAAD)患者的生存率。该模型将使用C-Index(一致性指数)进行评估,这是一种特别适合测量生存模型准确性的指标。

背景

胰腺癌具有最高的死亡率之一,基于临床数据准确预测患者生存可以帮助制定治疗计划和患者护理。数据集包含各种临床变量,如人口统计信息、治疗历史和生存时间,这些将作为模型中的预测因子。

任务详情

  • 模型类型:回归
  • 目标变量:患者生存时间(通常以天或月为单位)
  • 评估指标:C-Index(一致性指数),用于评估生存模型的预测准确性。它评估预测生存时间与实际生存时间在患者对之间的吻合程度。

为什么选择C-Index?

C-Index通常用于生存分析,因为它反映了模型在区分患者对之间,预测谁将存活更长时间的能力。在处理临床生存数据中常见的截尾数据时,它比典型的回归指标(如均方误差MSE)具有优势。

数据集注意事项

  • 数据分割:数据集随机分为训练集(70%)、验证集(15%)和测试集(15%)。训练集和验证集包含所有临床变量,而测试集的临床变量被移除,以模拟真实世界的测试场景。
  • 隐私:数据集遵循隐私标准,因为它是匿名的。
  • 数据不平衡:由于生存率和临床结果通常是偏斜的,因此在模型训练过程中必须考虑这一点,以避免对多数类(生存时间较短的患者)的偏见。

使用示例

python import pandas as pd

splits = { "train": "train_data.parquet", "validation": "val_data.parquet", "test": "test_data.parquet", }

train_df = pd.read_parquet("hf://datasets/HLMCC/TCGA-PAAD/" + splits["train"]) validation_df = pd.read_parquet("hf://datasets/HLMCC/TCGA-PAAD/" + splits["validation"]) test_df = pd.read_parquet("hf://datasets/HLMCC/TCGA-PAAD/" + splits["test"])

引用

本研究中使用的数据来自The Cancer Genome Atlas(TCGA)研究网络:https://www.cancer.gov/tcga。如果您在工作中使用此数据集,请引用TCGA研究网络:

bash The Cancer Genome Atlas Research Network. (2017). Comprehensive and Integrated Genomic Characterization of Pancreatic Ductal Adenocarcinoma. Cancer Cell, 32(2), 185-203.e13. https://doi.org/10.1016/j.ccell.2017.07.007

数据集管理员

该数据集由TCGA联盟整理和准备,并由Moffitt癌症中心处理,以便于机器学习应用。

AI搜集汇总
数据集介绍
main_image_url
构建方式
TCGA-PAAD临床数据集源自癌症基因组图谱(TCGA)项目,专注于胰腺导管腺癌(PAAD)患者的临床数据。该数据集通过整合患者的临床记录,包括人口统计信息、治疗历史、生存数据等,构建了一个全面的临床数据资源。数据集的构建过程严格遵循隐私保护标准,确保所有患者信息均经过匿名化处理。此外,数据集被随机划分为训练集(70%)、验证集(15%)和测试集(15%),以支持机器学习模型的开发与评估。
特点
TCGA-PAAD临床数据集的特点在于其涵盖了胰腺导管腺癌患者的多样化临床属性,为癌症研究提供了丰富的分析维度。数据集中的关键变量包括生存时间、最后一次随访时间以及生存状态,这些变量为生存分析提供了重要依据。此外,数据集的设计考虑了数据泄露问题,测试集中移除了与患者预后直接相关的变量,以模拟真实世界的预测场景。数据集的隐私保护和数据平衡性也为模型训练提供了可靠的基础。
使用方法
TCGA-PAAD临床数据集主要用于开发预测胰腺导管腺癌患者生存率的机器学习模型。用户可以通过加载训练集、验证集和测试集进行模型训练与评估。模型的目标变量为患者的风险评分或相对生存预测,评估指标采用C-Index(一致性指数),以衡量模型在生存时间预测中的准确性。使用该数据集时,需注意数据集的划分和测试集中移除的变量,以确保模型的泛化能力。此外,用户需在提交预测结果时包含患者ID和预测评分两列,以符合评估要求。
背景与挑战
背景概述
TCGA-PAAD临床数据集源自癌症基因组图谱(TCGA)项目,专注于胰腺导管腺癌(PAAD)的临床数据研究。该数据集由TCGA研究网络于2017年发布,旨在为胰腺癌的基因组和临床研究提供全面支持。数据集涵盖了患者的 demographics、治疗历史、生存数据等关键临床属性,为胰腺癌的预后分析和治疗策略优化提供了重要依据。TCGA-PAAD数据集在癌症研究领域具有广泛影响力,特别是在生存分析和机器学习模型构建方面,为研究人员提供了丰富的临床数据资源。
当前挑战
TCGA-PAAD数据集在应用过程中面临多重挑战。首先,胰腺癌的高死亡率使得生存预测模型的构建尤为复杂,需要处理高度不平衡的数据分布,避免模型偏向于多数类(即生存时间较短的患者)。其次,数据集中的生存数据常包含截尾现象,这对传统的回归评估指标(如均方误差)提出了挑战,需采用C-Index等专门针对生存分析的评估方法。此外,在模型测试阶段,为防止数据泄露,需移除与患者预后直接相关的列,这增加了模型在真实场景中应用的难度。数据集的构建过程中,还需严格遵循隐私保护标准,确保患者信息的匿名化处理。
常用场景
经典使用场景
TCGA-PAAD临床数据集在胰腺癌研究领域中具有重要地位,主要用于构建机器学习模型以预测患者的生存率、复发率或对治疗的反应。该数据集通过整合患者的临床属性,如人口统计信息、治疗历史和生存数据,为研究人员提供了一个全面的分析平台。特别是在生存分析任务中,该数据集被广泛用于训练和评估回归模型,以预测患者的生存时间。
衍生相关工作
TCGA-PAAD数据集衍生了许多经典的研究工作,特别是在胰腺癌的生存分析和机器学习模型开发领域。例如,基于该数据集的研究开发了多种预测模型,用于评估患者的生存风险和复发概率。此外,该数据集还被用于探索胰腺癌的分子标志物和基因表达谱,为胰腺癌的早期诊断和治疗提供了新的思路。这些研究不仅推动了胰腺癌领域的学术进展,也为临床实践提供了重要的参考依据。
数据集最近研究
最新研究方向
近年来,TCGA-PAAD临床数据集在胰腺癌研究领域引起了广泛关注。胰腺癌作为一种高致死率的恶性肿瘤,其早期诊断和预后预测一直是医学研究的重点。该数据集通过整合患者的临床信息,如人口统计学、治疗历史和生存数据,为构建机器学习模型提供了丰富的基础。当前的研究方向主要集中在利用这些临床变量进行生存分析,通过回归模型预测患者的生存风险评分。C-Index(一致性指数)作为评估指标,因其在处理生存数据中的优势,成为模型性能评估的核心标准。此外,数据集的随机分割和隐私保护措施确保了研究的严谨性和伦理性。这些研究不仅推动了胰腺癌个性化治疗的发展,也为临床决策提供了科学依据,具有重要的医学和社会意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

陸委會新聞稿

本會發布之新聞稿

台湾省政府资料开放平台 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

OECD - Education at a Glance

该数据集提供了关于教育系统在不同国家和地区的详细统计数据,包括教育支出、教育参与率、教育成果、教师资源等多个方面。数据涵盖了OECD成员国以及部分非成员国。

www.oecd.org 收录

微博与抖音评论数据集

数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。

github 收录