TCGA-PAAD|癌症研究数据集|临床数据分析数据集
收藏TCGA-PAAD Clinical Data 数据集概述
数据集简介
TCGA-PAAD(The Cancer Genome Atlas - Pancreatic Adenocarcinoma)临床数据集包含与胰腺腺癌患者相关的临床数据。该数据集是TCGA项目的一部分,旨在为各种类型的癌症提供全面的基因组和临床数据。临床数据包括患者的人口统计学信息、治疗历史、生存数据以及其他与胰腺癌研究相关的临床属性。该数据集主要用于研究和分析目的,特别是用于构建机器学习模型,以基于临床属性预测生存、复发或治疗反应等结果。
目标
开发一个机器学习模型,使用临床数据预测胰腺腺癌(PAAD)患者的生存率。该模型将使用C-Index(一致性指数)进行评估,这是一种特别适合测量生存模型准确性的指标。
背景
胰腺癌具有最高的死亡率之一,基于临床数据准确预测患者生存可以帮助制定治疗计划和患者护理。数据集包含各种临床变量,如人口统计信息、治疗历史和生存时间,这些将作为模型中的预测因子。
任务详情
- 模型类型:回归
- 目标变量:患者生存时间(通常以天或月为单位)
- 评估指标:C-Index(一致性指数),用于评估生存模型的预测准确性。它评估预测生存时间与实际生存时间在患者对之间的吻合程度。
为什么选择C-Index?
C-Index通常用于生存分析,因为它反映了模型在区分患者对之间,预测谁将存活更长时间的能力。在处理临床生存数据中常见的截尾数据时,它比典型的回归指标(如均方误差MSE)具有优势。
数据集注意事项
- 数据分割:数据集随机分为训练集(70%)、验证集(15%)和测试集(15%)。训练集和验证集包含所有临床变量,而测试集的临床变量被移除,以模拟真实世界的测试场景。
- 隐私:数据集遵循隐私标准,因为它是匿名的。
- 数据不平衡:由于生存率和临床结果通常是偏斜的,因此在模型训练过程中必须考虑这一点,以避免对多数类(生存时间较短的患者)的偏见。
使用示例
python import pandas as pd
splits = { "train": "train_data.parquet", "validation": "val_data.parquet", "test": "test_data.parquet", }
train_df = pd.read_parquet("hf://datasets/HLMCC/TCGA-PAAD/" + splits["train"]) validation_df = pd.read_parquet("hf://datasets/HLMCC/TCGA-PAAD/" + splits["validation"]) test_df = pd.read_parquet("hf://datasets/HLMCC/TCGA-PAAD/" + splits["test"])
引用
本研究中使用的数据来自The Cancer Genome Atlas(TCGA)研究网络:https://www.cancer.gov/tcga。如果您在工作中使用此数据集,请引用TCGA研究网络:
bash The Cancer Genome Atlas Research Network. (2017). Comprehensive and Integrated Genomic Characterization of Pancreatic Ductal Adenocarcinoma. Cancer Cell, 32(2), 185-203.e13. https://doi.org/10.1016/j.ccell.2017.07.007
数据集管理员
该数据集由TCGA联盟整理和准备,并由Moffitt癌症中心处理,以便于机器学习应用。

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
陸委會新聞稿
本會發布之新聞稿
台湾省政府资料开放平台 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
OECD - Education at a Glance
该数据集提供了关于教育系统在不同国家和地区的详细统计数据,包括教育支出、教育参与率、教育成果、教师资源等多个方面。数据涵盖了OECD成员国以及部分非成员国。
www.oecd.org 收录
微博与抖音评论数据集
数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。
github 收录