Universal Behavioral Modeling Data Challenge Dataset

github2025-03-18 更新2025-03-12 收录

下载链接：

https://github.com/Synerise/recsys2025

下载链接

链接失效反馈

官方服务：

资源简介：

我们发布了一个匿名的数据集，包含真实世界的用户交互数据。这些数据用于开发通用行为模型，适用于多种预测任务，如流失预测和产品推荐。

We have released an anonymous dataset containing real-world user interaction data. This dataset is designed for developing general behavioral models that are applicable to a variety of predictive tasks, including churn prediction and product recommendation.

创建时间：

2025-03-10

原始信息汇总

通用行为建模数据挑战赛数据集概述

数据集背景

目的：推动行为建模的统一方法，通过用户行为日志（如购买、加购、页面访问等）构建通用行为画像（Universal Behavioral Profiles），适用于多种预测任务。
核心概念：通用行为画像需跨任务泛化，包括公开任务（如流失预测、产品倾向预测）和隐藏任务。

数据集内容

数据文件

事件数据（Parquet格式）：
- product_buy.parquet：购买事件（1,682,296条）
- add_to_cart.parquet：加购事件（5,235,882条）
- remove_from_cart.parquet：移出购物车事件（1,697,891条）
- page_visit.parquet：页面访问事件（150,713,186条）
- search_query.parquet：搜索查询事件（9,571,258条）
产品属性：product_properties.parquet（含SKU、类别、价格、名称编码）

关键子目录

input目录：
- relevant_clients.npy：需生成画像的1,000,000个用户ID。
target目录：
- 倾向性任务标签文件（如propensity_category.npy、propensity_sku.npy）。
- 活跃用户列表（active_clients.npy，用于流失预测）。

数据字段说明

通用字段

client_id：用户唯一标识（int64）。
timestamp：事件时间（格式：YYYY-MM-DD HH:mm:ss）。
sku：商品ID（int64，适用于购买、加购、移出购物车事件）。

特殊字段

product_properties：
- category：商品类别ID。
- price：价格分桶ID（100分位数）。
- name：商品名称量化嵌入向量（16维，每维取值0-255）。
search_query：
- query：搜索查询词量化嵌入向量（同名称编码格式）。
page_visit：
- url：访问页面ID（无具体内容信息）。

任务类型

公开任务

流失预测（churn）：
- 二分类：预测用户是否流失。
- 基于有购买记录的用户子集。
类别倾向预测（propensity_category）：
- 多标签分类：预测用户可能购买的Top 100类别。
产品倾向预测（propensity_sku）：
- 多标签分类：预测用户可能购买的Top 100产品。

隐藏任务

未公开具体内容，用于测试画像的泛化能力。

提交格式

必需文件：
- client_ids.npy：用户ID列表（一维int64数组，与relevant_clients.npy一致）。
- embeddings.npy：用户画像矩阵（二维float16数组，最大维度2048）。
验证工具：提供脚本验证提交格式合规性。

评估方法

主要指标：AUROC（加权80%）。
辅助指标（倾向性任务）：
- 新颖性（Novelty，加权10%）。
- 多样性（Diversity，加权10%）。
最终排名：基于所有任务的Borda计数法汇总。

注意事项

画像需基于全部事件数据生成，但仅需提交指定1,000,000用户的画像。
隐藏任务在竞赛结束后公开。

搜集汇总

数据集介绍

构建方式

本数据集的构建采用实际用户交互日志，涵盖购买、添加至购物车、从购物车移除、页面访问和搜索查询等多种类型的事件。通过对这些事件的深入分析，构建出能够普遍适用于多个预测任务的用户行为轮廓（Universal Behavioral Profiles）。参与者需提交用户行为轮廓，这些轮廓将作为简单神经网络架构的输入进行模型训练。

特点

该数据集的特点在于其匿名性和实用性。它包含真实世界的用户交互日志，并提供了产品属性信息以供与购买、添加至购物车和从购物车移除事件类型结合。数据集设计用于促进行为建模的统一方法，并要求提交的用户行为轮廓能够在多个预测任务中泛化，如用户流失预测、倾向性预测等。

使用方法

使用该数据集时，参与者需根据提供的事件数据生成用户行为轮廓。这些轮廓随后由组织者用于训练和评估多个下游任务，如用户流失预测、产品倾向性预测等。提交的轮廓需遵循特定的格式，包括用户ID和对应的嵌入表示，且嵌入向量的长度不得超过2048。

背景与挑战

背景概述

Universal Behavioral Modeling Data Challenge Dataset是一款旨在推动行为建模统一方法的数据集。该数据集的创建源于现代企业对机器学习和预测分析的需求，以优化商业决策。该数据集由Synerise组织于2025年推出，主要研究人员为来自该组织的团队。该数据集的核心研究问题是开发一种通用的用户行为轮廓（Universal Behavioral Profiles），这些轮廓能够编码每个个体过去的交互的基本方面，并适用于多种预测任务，如用户流失预测和产品推荐。这一数据集在行为建模和预测分析领域具有重大影响力，为相关研究提供了丰富的实验基础。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：1)如何从用户的海量交互日志中提取有效的特征，以创建能够跨多种预测任务泛化的用户行为轮廓；2)如何确保提交的用户行为轮廓能够在未知的、未优化的上下文中进行有效预测。具体而言，挑战体现在以下几个方面：数据预处理和特征提取的复杂性、模型泛化能力的保证、多种预测任务的适应性、以及评估指标的多样性和精确性。

常用场景

经典使用场景

该数据集的经典使用场景在于构建统一的用户行为画像，即Universal Behavioral Profiles，以便在多个预测任务中进行有效泛化。参与者需提交用户表示，这些表示随后被用于训练简单的神经网络架构，以完成包括用户流失预测、商品类别倾向预测和商品倾向预测等在内的下游任务。

衍生相关工作

基于该数据集，研究者们衍生出了多种相关的工作，包括但不限于改进用户行为画像构建方法、提出新的预测模型架构、以及探索用户行为数据的更深层次特征，进一步推动了用户行为分析领域的研究和发展。

数据集最近研究