pytorch-survival/flchain
收藏Hugging Face2023-05-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pytorch-survival/flchain
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: age
dtype: float32
- name: sex
dtype: float32
- name: sample.yr
dtype: int64
- name: kappa
dtype: float32
- name: lambda
dtype: float32
- name: flc.grp
dtype: int64
- name: creatinine
dtype: float32
- name: mgus
dtype: float32
- name: event_time
dtype: float32
- name: event_indicator
dtype: int64
splits:
- name: train
num_bytes: 339248
num_examples: 6524
download_size: 98347
dataset_size: 339248
---
# Dataset Card for "flchain"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征字段:
- 字段:年龄(age),数据类型:32位浮点型(float32)
- 字段:性别(sex),数据类型:32位浮点型(float32)
- 字段:采样年份(sample.yr),数据类型:64位整型(int64)
- 字段:κ轻链(kappa),数据类型:32位浮点型(float32)
- 字段:λ轻链(lambda),数据类型:32位浮点型(float32)
- 字段:游离轻链分组(flc.grp),数据类型:64位整型(int64)
- 字段:肌酐(creatinine),数据类型:32位浮点型(float32)
- 字段:意义未明单克隆免疫球蛋白血症(mgus, Monoclonal Gammopathy of Undetermined Significance),数据类型:32位浮点型(float32)
- 字段:事件发生时间(event_time),数据类型:32位浮点型(float32)
- 字段:事件指示符(event_indicator),数据类型:64位整型(int64)
数据集划分:
- 划分名称:训练集(train),字节占用量:339248,样本数量:6524
下载大小:98347字节
数据集总大小:339248字节
---
# 「flchain」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
pytorch-survival
原始信息汇总
数据集概述
数据集特征
- age:年龄,数据类型为
float32。 - sex:性别,数据类型为
float32。 - sample.yr:样本年份,数据类型为
int64。 - kappa:kappa值,数据类型为
float32。 - lambda:lambda值,数据类型为
float32。 - flc.grp:flc组别,数据类型为
int64。 - creatinine:肌酐水平,数据类型为
float32。 - mgus:mgus指标,数据类型为
float32。 - event_time:事件时间,数据类型为
float32。 - event_indicator:事件指示器,数据类型为
int64。
数据集分割
- train:训练集,包含
6524个样本,总大小为339248字节。
数据集大小
- 下载大小:
98347字节。 - 数据集大小:
339248字节。
搜集汇总
数据集介绍

构建方式
在医学研究领域,生存分析数据集对于评估患者预后至关重要。flchain数据集源自一项前瞻性队列研究,通过长期追踪美国奥姆斯特德县居民的健康状况构建而成。该研究收集了6524名参与者的临床与实验室数据,包括年龄、性别、肾功能指标如肌酐、以及免疫球蛋白轻链水平等关键变量。数据经过标准化处理,确保每个样本均包含事件时间与事件指示器,以支持生存模型的训练与验证。
使用方法
在应用flchain数据集时,研究者可借助PyTorch等深度学习框架进行生存分析建模。数据集已划分为训练集,包含6524个样本,可直接加载用于模型训练。典型流程包括预处理特征变量、标准化数值数据,并利用事件时间与指示器构建损失函数,如Cox比例风险模型或深度学习生存网络。通过整合临床特征与生存结局,该数据集支持风险预测、生存曲线估计及因素关联性研究,推动精准医疗的发展。
背景与挑战
背景概述
在医学统计与生存分析领域,精确预测患者生存时间与事件风险是临床决策的核心。flchain数据集由Mayo Clinic的研究团队于21世纪初构建,旨在探索血清游离轻链(FLC)水平与多发性骨髓瘤等血液疾病发病风险之间的关联。该数据集汇集了6524名患者的临床指标,包括年龄、性别、肌酐水平及FLC浓度等,为开发生存模型提供了关键数据基础。其公开促进了生存分析方法的验证与比较,推动了精准医疗中风险分层工具的发展,对血液肿瘤的早期筛查与预后评估产生了深远影响。
当前挑战
flchain数据集所针对的生存分析问题,面临多重挑战:患者生存时间常受右删失数据干扰,导致传统回归方法失效;临床变量如FLC水平与事件风险呈非线性关系,需复杂模型捕捉其动态关联。在构建过程中,数据收集跨越长期随访,易出现样本丢失与测量误差;变量如肌酐值存在异质性,需严谨的预处理以消除偏差。此外,罕见事件(如骨髓瘤发生)的不平衡分布,对模型区分能力提出更高要求,增加了预测的稳健性难度。
常用场景
经典使用场景
在生存分析领域,flchain数据集为研究者提供了一个经典的医学随访数据框架,常用于评估轻链淀粉样变性等疾病的生存风险。该数据集整合了患者的年龄、性别、生物标志物(如κ和λ轻链水平)及肾功能指标,通过事件时间和事件指示变量,支持Cox比例风险模型等生存模型的训练与验证。其结构化的临床特征与时间事件数据,使得研究者能够深入探究疾病进展的预测因素,为生存曲线的估计和风险分层提供了实证基础。
解决学术问题
flchain数据集有效解决了生存分析中常见的删失数据处理和多元协变量建模问题。通过提供详细的临床随访记录,它帮助学者克服了传统医学研究中样本量有限或变量缺失的挑战,使得风险比估计和生存函数推断更加稳健。该数据集的意义在于推动了半参数生存模型的发展,促进了统计方法与临床医学的交叉融合,为疾病预后研究提供了标准化数据范例,从而提升了生存分析在实证研究中的可重复性和解释力。
实际应用
在实际医疗场景中,flchain数据集被广泛应用于疾病预后评估和个性化治疗策略的制定。临床医生利用其包含的生物标志物和事件数据,开发风险预测工具,以识别轻链淀粉样变性患者的高危群体,优化监测和干预时机。此外,该数据集支持医疗决策系统的构建,辅助资源分配和临床试验设计,最终提升患者生存质量和医疗效率,体现了数据驱动方法在精准医疗中的实用价值。
数据集最近研究
最新研究方向
在生物医学统计与生存分析领域,flchain数据集作为研究轻链淀粉样变性与多发性骨髓瘤等血液疾病的重要资源,近年来推动了前沿探索。该数据集整合了年龄、性别、肾功能指标及事件时间等临床变量,为开发精准的风险预测模型提供了基础。当前研究热点聚焦于结合深度学习与生存分析算法,例如利用神经网络处理高维特征以提升对疾病进展时间的预测准确性,同时探索多任务学习框架来同时预测多种临床结局。这些进展不仅深化了对疾病机制的理解,也促进了个性化医疗策略的优化,在癌症预后评估和公共卫生干预中展现出深远影响。
以上内容由遇见数据集搜集并总结生成



