five

PI2I/PI2I

收藏
arXiv2026-01-23 更新2026-01-27 收录
下载链接:
https://huggingface.co/datasets/PI2I/PI2I
下载链接
链接失效反馈
官方服务:
资源简介:
PI2I数据集由阿里巴巴集团构建并开源,是一个大规模推荐系统基准数据集,包含来自淘宝平台的1.3亿条真实用户交互记录。该数据集通过用户行为日志(如点击流)构建,采用Swing算法计算商品间相似度,并创新性地引入触发-目标关系进行负采样。数据集主要应用于个性化推荐系统研究,旨在解决传统协同过滤方法在截断策略和用户-商品交互建模方面的局限性,为推荐算法在召回阶段的性能优化提供评估基准。

The PI2I dataset, constructed and open-sourced by Alibaba Group, is a large-scale benchmark dataset for recommender systems, containing 130 million real user interaction records from the Taobao platform. It is built based on user behavior logs such as clickstreams, adopts the Swing algorithm to calculate item similarity, and innovatively introduces the trigger-target relationship for negative sampling. This dataset is mainly used for personalized recommender system research, aiming to address the limitations of traditional collaborative filtering methods in truncation strategies and user-item interaction modeling, and provides an evaluation benchmark for optimizing the performance of recommendation algorithms in the recall phase.
提供机构:
阿里巴巴集团; 浙江大学
创建时间:
2026-01-23
原始信息汇总

数据集概述

基本信息

  • 数据集名称: PI2I
  • 来源论文: 《PI2I: A Personalized Item-Based Collaborative Filtering Retrieval Framework》
  • 论文状态: 已被TheWebConf 2026工业轨道接受
  • 数据来源: 淘宝
  • 数据内容: 真实的用户-商品交互数据
  • 许可协议: Apache-2.0

核心统计信息

  • 交互总数: 130,828,023 条
  • 独立用户数: 705,647 个
  • 独立商品数: 20,351,625 个
  • 数据时间跨度: 23 天
  • 数据稀疏度: 99.9%

用户交互行为统计

  • 平均用户交互次数: 185 次
  • 最大用户交互次数: 20,894 次
  • 最小用户交互次数: 1 次

注意事项

  • 由于哈希碰撞,数据集中统计的独立用户数和独立商品数与论文中报告的值可能存在微小差异。
搜集汇总
背景与挑战
背景概述
PI2I数据集是由阿里巴巴开源的大规模推荐系统基准数据集,包含1.3亿条淘宝平台的真实用户交互记录。该数据集基于用户行为日志构建,采用Swing算法计算商品相似度,并创新引入触发-目标关系进行负采样,主要用于个性化推荐系统研究,旨在优化召回阶段的算法性能,解决传统协同过滤的局限性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作