pytorch-survival/flchain

Name: pytorch-survival/flchain
Creator: pytorch-survival
Published: 2023-05-15 10:53:57
License: 暂无描述

Hugging Face2023-05-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pytorch-survival/flchain

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: age dtype: float32 - name: sex dtype: float32 - name: sample.yr dtype: int64 - name: kappa dtype: float32 - name: lambda dtype: float32 - name: flc.grp dtype: int64 - name: creatinine dtype: float32 - name: mgus dtype: float32 - name: event_time dtype: float32 - name: event_indicator dtype: int64 splits: - name: train num_bytes: 339248 num_examples: 6524 download_size: 98347 dataset_size: 339248 --- # Dataset Card for "flchain" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息：特征字段： - 字段：年龄（age），数据类型：32位浮点型（float32） - 字段：性别（sex），数据类型：32位浮点型（float32） - 字段：采样年份（sample.yr），数据类型：64位整型（int64） - 字段：κ轻链（kappa），数据类型：32位浮点型（float32） - 字段：λ轻链（lambda），数据类型：32位浮点型（float32） - 字段：游离轻链分组（flc.grp），数据类型：64位整型（int64） - 字段：肌酐（creatinine），数据类型：32位浮点型（float32） - 字段：意义未明单克隆免疫球蛋白血症（mgus, Monoclonal Gammopathy of Undetermined Significance），数据类型：32位浮点型（float32） - 字段：事件发生时间（event_time），数据类型：32位浮点型（float32） - 字段：事件指示符（event_indicator），数据类型：64位整型（int64）数据集划分： - 划分名称：训练集（train），字节占用量：339248，样本数量：6524 下载大小：98347字节数据集总大小：339248字节 --- # 「flchain」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

pytorch-survival

原始信息汇总

数据集概述

数据集特征

age：年龄，数据类型为float32。
sex：性别，数据类型为float32。
sample.yr：样本年份，数据类型为int64。
kappa：kappa值，数据类型为float32。
lambda：lambda值，数据类型为float32。
flc.grp：flc组别，数据类型为int64。
creatinine：肌酐水平，数据类型为float32。
mgus：mgus指标，数据类型为float32。
event_time：事件时间，数据类型为float32。
event_indicator：事件指示器，数据类型为int64。

数据集分割

train：训练集，包含6524个样本，总大小为339248字节。

数据集大小

下载大小：98347字节。
数据集大小：339248字节。

搜集汇总

数据集介绍

构建方式

在医学研究领域，生存分析数据集对于评估患者预后至关重要。flchain数据集源自一项前瞻性队列研究，通过长期追踪美国奥姆斯特德县居民的健康状况构建而成。该研究收集了6524名参与者的临床与实验室数据，包括年龄、性别、肾功能指标如肌酐、以及免疫球蛋白轻链水平等关键变量。数据经过标准化处理，确保每个样本均包含事件时间与事件指示器，以支持生存模型的训练与验证。

使用方法

在应用flchain数据集时，研究者可借助PyTorch等深度学习框架进行生存分析建模。数据集已划分为训练集，包含6524个样本，可直接加载用于模型训练。典型流程包括预处理特征变量、标准化数值数据，并利用事件时间与指示器构建损失函数，如Cox比例风险模型或深度学习生存网络。通过整合临床特征与生存结局，该数据集支持风险预测、生存曲线估计及因素关联性研究，推动精准医疗的发展。

背景与挑战

背景概述

在医学统计与生存分析领域，精确预测患者生存时间与事件风险是临床决策的核心。flchain数据集由Mayo Clinic的研究团队于21世纪初构建，旨在探索血清游离轻链（FLC）水平与多发性骨髓瘤等血液疾病发病风险之间的关联。该数据集汇集了6524名患者的临床指标，包括年龄、性别、肌酐水平及FLC浓度等，为开发生存模型提供了关键数据基础。其公开促进了生存分析方法的验证与比较，推动了精准医疗中风险分层工具的发展，对血液肿瘤的早期筛查与预后评估产生了深远影响。

当前挑战

flchain数据集所针对的生存分析问题，面临多重挑战：患者生存时间常受右删失数据干扰，导致传统回归方法失效；临床变量如FLC水平与事件风险呈非线性关系，需复杂模型捕捉其动态关联。在构建过程中，数据收集跨越长期随访，易出现样本丢失与测量误差；变量如肌酐值存在异质性，需严谨的预处理以消除偏差。此外，罕见事件（如骨髓瘤发生）的不平衡分布，对模型区分能力提出更高要求，增加了预测的稳健性难度。

常用场景

经典使用场景

在生存分析领域，flchain数据集为研究者提供了一个经典的医学随访数据框架，常用于评估轻链淀粉样变性等疾病的生存风险。该数据集整合了患者的年龄、性别、生物标志物（如κ和λ轻链水平）及肾功能指标，通过事件时间和事件指示变量，支持Cox比例风险模型等生存模型的训练与验证。其结构化的临床特征与时间事件数据，使得研究者能够深入探究疾病进展的预测因素，为生存曲线的估计和风险分层提供了实证基础。

解决学术问题

flchain数据集有效解决了生存分析中常见的删失数据处理和多元协变量建模问题。通过提供详细的临床随访记录，它帮助学者克服了传统医学研究中样本量有限或变量缺失的挑战，使得风险比估计和生存函数推断更加稳健。该数据集的意义在于推动了半参数生存模型的发展，促进了统计方法与临床医学的交叉融合，为疾病预后研究提供了标准化数据范例，从而提升了生存分析在实证研究中的可重复性和解释力。

实际应用

在实际医疗场景中，flchain数据集被广泛应用于疾病预后评估和个性化治疗策略的制定。临床医生利用其包含的生物标志物和事件数据，开发风险预测工具，以识别轻链淀粉样变性患者的高危群体，优化监测和干预时机。此外，该数据集支持医疗决策系统的构建，辅助资源分配和临床试验设计，最终提升患者生存质量和医疗效率，体现了数据驱动方法在精准医疗中的实用价值。

数据集最近研究