pytorch-survival/kkbox
收藏Hugging Face2023-05-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pytorch-survival/kkbox
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: msno
dtype: string
- name: n_prev_churns
dtype: float32
- name: log_days_between_subs
dtype: float32
- name: log_days_since_reg_init
dtype: float32
- name: log_payment_plan_days
dtype: float32
- name: log_plan_list_price
dtype: float32
- name: log_actual_amount_paid
dtype: float32
- name: is_auto_renew
dtype: float32
- name: is_cancel
dtype: float32
- name: city
dtype: float64
- name: gender
dtype: string
- name: registered_via
dtype: float64
- name: age_at_start
dtype: float32
- name: strange_age
dtype: float32
- name: nan_days_since_reg_init
dtype: float32
- name: no_prev_churns
dtype: float32
- name: event_time
dtype: float32
- name: event_indicator
dtype: int64
splits:
- name: train
num_bytes: 236008040
num_examples: 1786358
download_size: 105130610
dataset_size: 236008040
---
# Dataset Card for "kkbox"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
pytorch-survival
原始信息汇总
数据集概述
数据集特征
- msno: 数据类型 - string
- n_prev_churns: 数据类型 - float32
- log_days_between_subs: 数据类型 - float32
- log_days_since_reg_init: 数据类型 - float32
- log_payment_plan_days: 数据类型 - float32
- log_plan_list_price: 数据类型 - float32
- log_actual_amount_paid: 数据类型 - float32
- is_auto_renew: 数据类型 - float32
- is_cancel: 数据类型 - float32
- city: 数据类型 - float64
- gender: 数据类型 - string
- registered_via: 数据类型 - float64
- age_at_start: 数据类型 - float32
- strange_age: 数据类型 - float32
- nan_days_since_reg_init: 数据类型 - float32
- no_prev_churns: 数据类型 - float32
- event_time: 数据类型 - float32
- event_indicator: 数据类型 - int64
数据集划分
- train:
- 数据大小: 236008040 字节
- 示例数量: 1786358
数据集大小
- 下载大小: 105130610 字节
- 数据集总大小: 236008040 字节
搜集汇总
数据集介绍

构建方式
在用户流失预测与生存分析领域,KKBox数据集源自亚洲领先的音乐流媒体平台,旨在通过用户行为与订阅记录构建精准的流失预测模型。该数据集基于KKBox提供的用户交易日志与活动数据,通过整合用户标识(msno)、历史流失次数、订阅间隔天数、注册时长、支付计划周期、定价与实付金额、自动续费标志、取消状态、城市、性别、注册渠道、年龄等多元特征,构建了包含18个字段的生存分析格式数据。每个样本以事件时间(event_time)和事件指示器(event_indicator)标记用户流失或截尾状态。训练集包含1,786,358条记录,数据经过对数变换与缺失值处理,如对天数与金额取对数、生成奇异年龄与无历史流失标志等衍生变量,最终存储为高效浮点与整型格式,适用于时间至事件预测任务。
特点
该数据集的核心特点在于其专为生存分析设计的结构化布局,融合了时间动态与静态用户画像。特征涵盖支付行为(如自动续费、实际支付金额)、订阅历史(如计划周期、取消状态)及人口统计(如城市、性别),并通过对数变换与缺失标志(如nan_days_since_reg_init)增强数值稳定性。特别地,n_prev_churns与no_prev_churns双字段并行记录历史流失信息,而strange_age用于标识年龄异常值,体现了对数据质量与模型鲁棒性的精细考量。事件时间与事件指示器的存在,使其区别于传统分类数据集,可直接支持Cox比例风险模型、随机生存森林等算法,无需额外格式转换。大规模样本量(逾178万条)与高维特征组合,为训练复杂神经网络生存模型提供了充足数据基础。
使用方法
使用该数据集时,研究者需加载包含特征与生存标签的表格数据,其中event_time为连续时间变量,event_indicator为二值事件标志(1表示流失,0表示截尾)。典型流程包括将数据拆分为训练集与验证集,利用生存分析库(如PyTorch Survival或scikit-survival)拟合模型。特征工程可直接应用原始数值字段,但需注意类别变量(如gender、city)需进行独热编码或嵌入变换。模型评估应关注一致性指数(C-index)或时间依赖的AUC,而非传统准确率。推荐采用对数变换后的支付与时间特征作为协变量,并利用no_prev_churns标志处理缺失历史。数据集以Parquet或CSV格式存储,可通过HuggingFace Datasets库的load_dataset函数直接调用,指定split='train'加载全部示例,便于快速集成到生存分析流水线中。
背景与挑战
背景概述
在客户关系管理与订阅制服务经济蓬勃发展的当下,用户流失预测已成为企业维持营收增长与优化运营策略的核心议题。KKBox作为亚洲领先的音乐流媒体平台,其用户留存分析对理解数字音乐产业中的用户行为模式具有重要价值。该数据集由PyTorch Survival团队整理并发布于HuggingFace,旨在为生存分析领域提供真实场景下的用户流失数据。数据集包含约178万条训练样本,涵盖了用户订阅时长、支付金额、自动续费状态、城市分布及年龄等多维特征,并以事件时间与事件指示器作为生存分析的核心目标变量。该数据集的出现,填补了流媒体服务领域高质量生存分析数据的空白,推动了基于深度学习的生存模型在商业场景中的落地验证,为研究用户生命周期与流失风险提供了关键支撑。
当前挑战
该数据集所面临的挑战首先体现在领域问题的复杂性上:用户流失预测在生存分析框架下需同时处理右删失数据与时变协变量,传统分类模型难以准确刻画用户在不同时间点的流失概率动态变化。其次,构建过程中遭遇多重困难,包括特征工程中年龄异常值(如strange_age字段)的识别与处理、缺失值(如nan_days_since_reg_init)的合理插补,以及用户注册渠道(registered_via)与城市等类别特征的高维稀疏性问题。此外,数据集中存在用户重复订阅行为(由n_prev_churns字段表征),其历史流失信息与当前风险之间的时序依赖关系增加了建模难度。这些挑战共同要求研究者设计能够捕捉长期依赖关系且对删失数据鲁棒的生存分析模型。
常用场景
经典使用场景
在客户流失预测与生存分析的交汇领域,pytorch-survival/kkbox数据集以其丰富的用户订阅行为特征,成为探究数字音乐服务中用户留存与流失动态的经典资源。该数据集整合了用户历史流失次数、订阅间隔时长、支付计划细节及人口统计信息,为研究者提供了构建时间至事件(time-to-event)模型的理想平台。其最经典的使用场景是基于Cox比例风险模型或随机生存森林等算法,预测用户在未来特定时间窗口内的流失概率,从而揭示订阅服务中用户生命周期的内在规律。
实际应用
在实际商业环境中,kkbox数据集的典型应用场景聚焦于订阅型服务平台的用户挽留策略优化。企业可借助该数据集训练的生存模型,实时识别高流失风险用户群体,并据此推送个性化优惠、调整会员权益或优化续费提醒时机。例如,通过分析支付计划天数与历史流失次数的交互效应,运营团队能够设计更精准的忠诚度计划,从而显著降低客户获取成本并提升用户生命周期价值,这一实践已在多家流媒体与SaaS服务商中得到验证。
衍生相关工作
围绕kkbox数据集,学术界衍生了一系列具有标杆意义的工作。其中,基于深度生存网络的动态流失预测模型首次将循环神经网络与Cox部分似然相结合,实现了对用户行为序列的端到端学习。此外,有研究引入竞争风险框架,区分了被动流失与主动取消两种不同机制,拓展了传统生存分析的边界。在特征工程层面,衍生工作探索了支付行为时变协变量的嵌入方法,显著提升了模型的校准度与区分度,这些成果持续推动着生存分析在大规模用户数据场景下的前沿发展。
以上内容由遇见数据集搜集并总结生成



