five

KuaiLive

收藏
arXiv2025-08-08 更新2025-08-09 收录
下载链接:
https://imgkkk574.github.io/KuaiLive
下载链接
链接失效反馈
资源简介:
KuaiLive是一个来自中国领先的直播平台快手的实时交互数据集,包含23,772个用户和452,621个主播在21天内的互动日志。与现有数据集相比,KuaiLive具有多个优势:它包括精确的直播间开始和结束时间戳,多种类型的实时用户交互(点击、评论、点赞、礼物),以及用户和主播的丰富侧信息特征。这些特征使得KuaiLive能够支持直播领域的各种任务,如推荐、点击率预测、观看时长预测等。

KuaiLive is a real-time interaction dataset sourced from Kuaishou, one of China's leading live streaming platforms. It contains interaction logs of 23,772 users and 452,621 streamers over a 21-day period. Compared with existing datasets, KuaiLive boasts multiple distinct advantages: it includes precise start and end timestamps of live streaming rooms, various types of real-time user interactions (clicks, comments, likes, gifts), as well as rich side information features for both users and streamers. These features enable KuaiLive to support a wide range of tasks in the live streaming domain, such as recommendation, click-through rate prediction, watch duration prediction, and so on.
提供机构:
中国人民大学高瓴人工智能学院
创建时间:
2025-08-08
原始信息汇总

KuaiLive数据集概述

数据集简介

  • 名称:KuaiLive
  • 类型:直播推荐真实世界数据集
  • 来源:中国领先直播平台快手(日活超4亿用户)
  • 商业价值:直播收入约占公司总收入的30%
  • 独特性:首个公开的捕获交互式应用环境中用户丰富互动序列的直播数据集

核心优势

  1. 时间约束模拟:包含每个直播间的开始和结束时间戳
  2. 多行为记录:点击、评论、点赞、送礼等多种用户行为
  3. 时序完整性:保留每个交互的时间顺序
  4. 正负反馈:包含正负反馈,适合CTR预测
  5. 丰富特征:提供用户和物品的丰富侧信息特征
  6. 扩展指标:包含观看时间和礼物价格等扩展研究指标

基础统计

指标 数量
用户数 23,772
主播数 452,621
直播间数 11,613,708
总交互数 5,357,998
点击量 4,909,515
评论数 196,526
点赞数 179,311
礼物数 72,646

特征描述

用户特征

  • 基础属性:性别、年龄、国家、设备品牌、设备价格
  • 行为特征:注册时间戳、粉丝数、关注数、首次观看直播时间戳
  • 统计特征:累计观看直播次数、累计观看时长
  • 身份特征:是否直播作者、是否视频作者
  • 加密向量:7个加密向量

主播特征

  • 基础属性:性别、年龄、国家、设备品牌、设备价格
  • 运营特征:直播运营标签、粉丝数、粉丝群数、关注数
  • 统计特征:首次直播时间戳、累计直播次数、累计直播时长
  • 播放特征:累计播放次数、累计播放时长
  • 加密向量:7个加密向量

直播间特征

  • 时间特征:开始时间戳、结束时间戳
  • 内容特征:直播类型、直播内容类别
  • 名称特征:直播名称表示

数据获取

  • 下载地址:https://zenodo.org/records/16565801
  • 下载方式
    • 浏览器直接下载
    • 使用wget命令: bash wget https://zenodo.org/record/16565801/files/KuaiLive.zip unzip KuaiLive.zip

引用格式

bibtex @article{qu2025kuailive, title={KuaiLive: A Real-time Interactive Dataset for Live Streaming Recommendation}, author={Qu, Changle and Dai, Sunhao and Guo, Ke and Zhao, Liqin and Niu, Yanan and Zhang, Xiao and Xu, Jun}, journal={arXiv preprint arXiv:2508.05633}, year={2025} }

许可协议

  • 类型:知识共享署名-非商业性使用-相同方式共享4.0国际许可协议
AI搜集汇总
数据集介绍
main_image_url
构建方式
KuaiLive数据集构建过程严谨且系统化,首先从快手平台随机抽取了25,000名活跃用户,这些用户在2025年5月5日至5月25日期间均有点击、评论、点赞和送礼四种互动行为。经过异常行为过滤后,最终保留了23,772名用户。数据收集覆盖了21天内的精细互动日志,包括四种行为类型及精确时间戳,并记录了辅助信号如观看时长和礼物价格。此外,数据集还包含用户、主播和直播间的丰富侧信息,总计20项用户特征、23项主播特征和5项直播间特征。为确保隐私合规,所有标识符均经过匿名化处理,包括哈希化和时间戳偏移技术。
使用方法
该数据集支持直播推荐领域的多任务研究:1) 基于ID或特征的Top-K推荐,可评估协同过滤、序列推荐(如SASRec)和时间感知模型(如TiSASRec)在动态候选池下的性能;2) CTR预测任务可利用正负样本及多维特征,验证FM、DeepFM等模型效果;3) 观看时长与礼物价格预测任务需结合时序行为分析;4) 多行为建模可探索点击、送礼等行为的关联性。使用时应区分物品定义(主播ID或直播间ID),注意直播间场景的冷启动挑战。评估协议采用留一法划分,负采样需根据直播间活跃时间筛选候选集,指标包含Recall@K/NDCG@K(推荐任务)及AUC/LogLoss(预测任务)。
背景与挑战
背景概述
KuaiLive数据集由中国人民大学高瓴人工智能学院与快手科技联合开发,于2025年8月首次公开,旨在填补直播推荐领域缺乏动态交互数据集的空白。作为首个完整记录直播生命周期(包含房间起止时间戳)及多类型实时交互行为(点击、评论、点赞、打赏)的公开数据集,其采集自日活超4亿的快手平台,包含23,772名用户与452,621名主播在21天内的535万条交互记录。该数据集通过精确捕捉直播场景的时空动态性,解决了传统推荐数据集无法模拟实时内容演化与用户瞬时反馈的核心问题,为学术界研究动态候选池建模、多行为序列分析等前沿方向提供了基准平台。
当前挑战
直播推荐面临两大核心挑战:领域层面需解决动态候选池的时效性建模难题——主播在线状态与内容实时变化导致超90%的候选物品生命周期短于1小时,传统静态推荐方法难以适应;同时极端稀疏的交互分布(打赏行为仅占1.5%)要求模型具备细粒度意图识别能力。数据构建过程中,需克服多源异构数据融合的技术壁垒,包括实时日志流处理、跨模态特征对齐(如弹幕文本与虚拟礼物视觉信号的关联),以及严格满足用户隐私保护的匿名化要求(时序偏移哈希与嵌入降维等技术的平衡)。此外,长尾效应显著——头部10%主播占据85%交互量,对公平性评估指标设计提出新要求。
常用场景
经典使用场景
在直播推荐系统的研究中,KuaiLive数据集因其丰富的实时交互数据和动态直播生命周期信息,成为评估和优化推荐算法的理想选择。该数据集特别适用于模拟真实场景下的动态候选池变化,支持研究者探索用户在不同时间段的偏好变化。通过精确记录直播间的开始和结束时间戳,以及用户的点击、评论、点赞和送礼行为,KuaiLive为研究直播推荐中的时间敏感性和多行为建模提供了坚实基础。
解决学术问题
KuaiLive数据集解决了直播推荐领域中的多个关键学术问题。首先,它填补了公开数据集中缺乏动态直播生命周期信息的空白,使得研究者能够更真实地模拟直播场景中的时间依赖性。其次,数据集提供的多类型用户交互行为(如点击、评论、送礼)支持多任务学习和多行为建模的研究。此外,KuaiLive还包含了丰富的用户和主播侧信息,为冷启动推荐和公平性研究提供了数据支持。
实际应用
在实际应用中,KuaiLive数据集被广泛用于优化直播平台的推荐系统。例如,平台可以利用该数据集训练模型预测用户的点击率和送礼行为,从而提升推荐的相关性和商业收益。数据集中的实时交互数据还能帮助平台动态调整推荐策略,适应用户在不同时间段的行为变化。此外,KuaiLive支持的研究成果已被应用于提升直播内容的多样性和主播的曝光公平性。
数据集最近研究
最新研究方向
随着直播平台的迅猛发展,直播推荐系统已成为信息检索领域的前沿研究方向。KuaiLive作为首个公开的实时交互式直播推荐数据集,为学术界提供了研究动态候选池和多行为建模的宝贵资源。该数据集精准记录了直播间的生命周期时间戳,以及用户的点击、评论、点赞和送礼等多维度交互行为,使得研究者能够更真实地模拟直播场景下的时序动态特性。当前基于KuaiLive的前沿研究主要集中在生成式推荐模型构建、跨域推荐算法优化,以及公平性推荐机制设计等方向。特别是在大型语言模型快速发展的背景下,如何利用多模态特征实现用户意图的精准捕捉,成为提升直播推荐效果的关键突破口。该数据集的发布不仅填补了学术界在直播推荐领域的数据空白,更为探索实时交互场景下的新型推荐范式提供了重要实验平台。
相关研究论文
  • 1
    KuaiLive: A Real-time Interactive Dataset for Live Streaming Recommendation中国人民大学高瓴人工智能学院 · 2025年
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作