five

Universal Behavioral Modeling Data Challenge Dataset

收藏
github2025-03-18 更新2025-03-12 收录
下载链接:
https://github.com/Synerise/recsys2025
下载链接
链接失效反馈
官方服务:
资源简介:
我们发布了一个匿名的数据集,包含真实世界的用户交互数据。这些数据用于开发通用行为模型,适用于多种预测任务,如流失预测和产品推荐。

We have released an anonymous dataset containing real-world user interaction data. This dataset is designed for developing general behavioral models that are applicable to a variety of predictive tasks, including churn prediction and product recommendation.
创建时间:
2025-03-10
原始信息汇总

通用行为建模数据挑战赛数据集概述

数据集背景

  • 目的:推动行为建模的统一方法,通过用户行为日志(如购买、加购、页面访问等)构建通用行为画像(Universal Behavioral Profiles),适用于多种预测任务。
  • 核心概念:通用行为画像需跨任务泛化,包括公开任务(如流失预测、产品倾向预测)和隐藏任务。

数据集内容

数据文件

  • 事件数据(Parquet格式):
    • product_buy.parquet:购买事件(1,682,296条)
    • add_to_cart.parquet:加购事件(5,235,882条)
    • remove_from_cart.parquet:移出购物车事件(1,697,891条)
    • page_visit.parquet:页面访问事件(150,713,186条)
    • search_query.parquet:搜索查询事件(9,571,258条)
  • 产品属性product_properties.parquet(含SKU、类别、价格、名称编码)

关键子目录

  • input目录
    • relevant_clients.npy:需生成画像的1,000,000个用户ID。
  • target目录
    • 倾向性任务标签文件(如propensity_category.npypropensity_sku.npy)。
    • 活跃用户列表(active_clients.npy,用于流失预测)。

数据字段说明

通用字段

  • client_id:用户唯一标识(int64)。
  • timestamp:事件时间(格式:YYYY-MM-DD HH:mm:ss)。
  • sku:商品ID(int64,适用于购买、加购、移出购物车事件)。

特殊字段

  • product_properties
    • category:商品类别ID。
    • price:价格分桶ID(100分位数)。
    • name:商品名称量化嵌入向量(16维,每维取值0-255)。
  • search_query
    • query:搜索查询词量化嵌入向量(同名称编码格式)。
  • page_visit
    • url:访问页面ID(无具体内容信息)。

任务类型

公开任务

  1. 流失预测churn):
    • 二分类:预测用户是否流失。
    • 基于有购买记录的用户子集。
  2. 类别倾向预测propensity_category):
    • 多标签分类:预测用户可能购买的Top 100类别。
  3. 产品倾向预测propensity_sku):
    • 多标签分类:预测用户可能购买的Top 100产品。

隐藏任务

  • 未公开具体内容,用于测试画像的泛化能力。

提交格式

  • 必需文件
    • client_ids.npy:用户ID列表(一维int64数组,与relevant_clients.npy一致)。
    • embeddings.npy:用户画像矩阵(二维float16数组,最大维度2048)。
  • 验证工具:提供脚本验证提交格式合规性。

评估方法

  • 主要指标:AUROC(加权80%)。
  • 辅助指标(倾向性任务):
    • 新颖性(Novelty,加权10%)。
    • 多样性(Diversity,加权10%)。
  • 最终排名:基于所有任务的Borda计数法汇总。

注意事项

  • 画像需基于全部事件数据生成,但仅需提交指定1,000,000用户的画像。
  • 隐藏任务在竞赛结束后公开。
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集的构建采用实际用户交互日志,涵盖购买、添加至购物车、从购物车移除、页面访问和搜索查询等多种类型的事件。通过对这些事件的深入分析,构建出能够普遍适用于多个预测任务的用户行为轮廓(Universal Behavioral Profiles)。参与者需提交用户行为轮廓,这些轮廓将作为简单神经网络架构的输入进行模型训练。
特点
该数据集的特点在于其匿名性和实用性。它包含真实世界的用户交互日志,并提供了产品属性信息以供与购买、添加至购物车和从购物车移除事件类型结合。数据集设计用于促进行为建模的统一方法,并要求提交的用户行为轮廓能够在多个预测任务中泛化,如用户流失预测、倾向性预测等。
使用方法
使用该数据集时,参与者需根据提供的事件数据生成用户行为轮廓。这些轮廓随后由组织者用于训练和评估多个下游任务,如用户流失预测、产品倾向性预测等。提交的轮廓需遵循特定的格式,包括用户ID和对应的嵌入表示,且嵌入向量的长度不得超过2048。
背景与挑战
背景概述
Universal Behavioral Modeling Data Challenge Dataset是一款旨在推动行为建模统一方法的数据集。该数据集的创建源于现代企业对机器学习和预测分析的需求,以优化商业决策。该数据集由Synerise组织于2025年推出,主要研究人员为来自该组织的团队。该数据集的核心研究问题是开发一种通用的用户行为轮廓(Universal Behavioral Profiles),这些轮廓能够编码每个个体过去的交互的基本方面,并适用于多种预测任务,如用户流失预测和产品推荐。这一数据集在行为建模和预测分析领域具有重大影响力,为相关研究提供了丰富的实验基础。
当前挑战
该数据集在构建过程中遇到的挑战主要包括:1)如何从用户的海量交互日志中提取有效的特征,以创建能够跨多种预测任务泛化的用户行为轮廓;2)如何确保提交的用户行为轮廓能够在未知的、未优化的上下文中进行有效预测。具体而言,挑战体现在以下几个方面:数据预处理和特征提取的复杂性、模型泛化能力的保证、多种预测任务的适应性、以及评估指标的多样性和精确性。
常用场景
经典使用场景
该数据集的经典使用场景在于构建统一的用户行为画像,即Universal Behavioral Profiles,以便在多个预测任务中进行有效泛化。参与者需提交用户表示,这些表示随后被用于训练简单的神经网络架构,以完成包括用户流失预测、商品类别倾向预测和商品倾向预测等在内的下游任务。
衍生相关工作
基于该数据集,研究者们衍生出了多种相关的工作,包括但不限于改进用户行为画像构建方法、提出新的预测模型架构、以及探索用户行为数据的更深层次特征,进一步推动了用户行为分析领域的研究和发展。
数据集最近研究
最新研究方向
近期研究聚焦于通用行为建模,旨在推动行为预测任务的统一建模方法。该数据集挑战赛鼓励参与者构建通用行为档案(Universal Behavioral Profiles),以实现对用户历史交互的全面编码。这些档案被设计为在多个预测任务中具有普遍适用性,如用户流失预测、产品推荐等。研究的前沿方向在于开发能够在不同应用间有效泛化的用户表征,从而提升模型的预测性能和泛化能力。该挑战不仅关注开放任务,还包含隐藏任务以确保提交的行为档案具有良好的泛化特性而非针对特定目标进行优化。此类研究对于提升机器学习在商业决策中的应用具有重大影响和意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作