Tenrec

arXiv2023-06-04 更新2024-06-21 收录

下载链接：

https://github.com/yuangh-x/2022-NIPS-Tenrec*

下载链接

链接失效反馈

官方服务：

资源简介：

Tenrec数据集是由腾讯公司创建的，旨在为推荐系统研究提供一个大规模、多用途的基准数据集。该数据集涵盖了四个不同的推荐场景，包括视频和文章推荐，记录了约500万用户的行为数据，总计约1.4亿次交互。Tenrec不仅包含用户的积极反馈如点击、喜欢、分享和关注，还包含了真实负反馈，即用户未采取行动的曝光数据。此外，数据集还包含用户和物品的额外特征，如用户年龄、性别和视频类别等，这些特征可用于上下文或基于内容的推荐。Tenrec数据集的目的是为了支持多样化的推荐研究，包括跨域推荐、多任务学习、点击率预测等任务，并已用于评估多种推荐模型。

The Tenrec dataset, developed by Tencent Inc., is a large-scale, multi-purpose benchmark dataset for recommender system research. This dataset encompasses four distinct recommendation scenarios, including video and article recommendations, and records behavioral data from approximately 5 million users, totaling around 140 million interactions. The Tenrec dataset not only contains positive user feedback such as clicks, likes, shares, and follows, but also genuine negative feedback in the form of exposure data where users did not take any corresponding actions. Additionally, the dataset includes supplementary features for both users and items, such as user age, gender, and video category, which can be applied to contextual or content-based recommendation studies. The Tenrec dataset is intended to support a wide range of recommender system research tasks, including cross-domain recommendation, multi-task learning, click-through rate (CTR) prediction, and more, and has been utilized to evaluate various recommendation models.

提供机构：

腾讯

创建时间：

2022-10-13

搜集汇总

数据集介绍

构建方式

Tenrec数据集通过从腾讯的两个不同推荐平台（QQ BOW和QQ KAN）收集用户行为日志构建而成。具体而言，从2021年9月17日至12月7日期间，随机抽取了约502万用户，要求每个用户至少有5次视频点击行为，并提取他们的反馈数据，包括正反馈（如点击、分享、喜欢和关注）和负反馈（曝光但无用户行为）。此外，还提取了用户的年龄和性别特征以及视频的类型特征。类似的数据提取策略也应用于其他场景（如文章推荐），最终形成了包含四个不同推荐场景的数据集。

特点

Tenrec数据集的主要特点包括：1）大规模，包含约500万用户和1.4亿次交互；2）不仅包含正反馈，还包含真实的负反馈；3）跨四个不同场景的用户和物品存在重叠；4）包含多种类型的用户正反馈，如点击、喜欢、分享和关注等；5）除了用户ID和物品ID外，还包含额外的用户和物品特征。这些特点使得Tenrec成为研究跨域推荐、多任务学习和点击率预测等任务的理想数据集。

使用方法

Tenrec数据集可用于多种推荐任务的评估，包括点击率预测、会话推荐、多任务学习、迁移学习、用户画像预测、冷启动推荐、终身用户表示学习、模型压缩、模型训练加速和模型推理加速等。研究者可以通过运行经典基线模型来验证Tenrec在这些任务上的性能，并探索其在不同推荐场景中的应用潜力。数据集的源代码、数据和排行榜可在GitHub上获取，以促进推荐系统领域的研究。

背景与挑战

背景概述

Tenrec数据集是由Tencent、Westlake University、Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences、University of Science and Technology of China和Sun Yat-sen University的研究人员共同创建的，旨在解决推荐系统（RS）领域中现有基准数据集规模小或用户反馈形式有限的问题。该数据集记录了四个不同推荐场景中的多种用户反馈，具有大规模、包含正负反馈、跨场景用户和物品重叠、多种正反馈形式以及额外特征等特点。Tenrec的创建时间为2021年9月至12月，主要研究人员包括Guanghu Yuan、Fajie Yuan等。该数据集对推荐系统领域的研究具有重要影响，特别是在解决大规模实际应用中的推荐问题方面。

当前挑战

Tenrec数据集面临的挑战主要包括：1) 解决推荐系统领域中数据集规模小和用户反馈形式有限的问题，这些问题限制了推荐模型在实际应用中的有效性；2) 在构建过程中，如何处理和整合来自四个不同推荐场景的数据，确保数据的一致性和可用性；3) 如何有效地利用数据集中的正负反馈和额外特征，以提升推荐模型的性能和实用性；4) 如何确保数据集的隐私和安全，特别是在涉及大规模用户数据时。

常用场景

经典使用场景

Tenrec数据集在推荐系统领域中被广泛用于评估多种推荐任务，包括点击率预测（CTR Prediction）、会话推荐（Session-based Recommendation）、多任务学习推荐（Multi-task Learning for Recommendation）、迁移学习推荐（Transfer Learning for Recommendation）等。其大规模和多用途的特性使得Tenrec成为研究跨域推荐（Cross-domain Recommendation）和终身用户表示学习（Lifelong User Representation Learning）等复杂推荐问题的理想基准。

解决学术问题

Tenrec数据集解决了现有推荐系统数据集规模小、用户反馈形式单一的问题，为学术研究提供了更真实、更丰富的数据环境。通过包含多种用户反馈类型和真实负反馈，Tenrec使得推荐模型能够在更接近实际应用的场景中进行评估，从而推动了推荐系统领域的研究进展。此外，Tenrec的多场景用户和物品重叠特性，为研究跨域推荐和迁移学习提供了宝贵的数据支持。

衍生相关工作

Tenrec数据集的发布催生了一系列相关研究工作，包括但不限于跨域推荐、多任务学习、迁移学习等方向。例如，基于Tenrec的跨域推荐研究探讨了如何在不同推荐场景间共享用户和物品信息，以提升推荐效果；多任务学习研究则利用Tenrec中的多种用户反馈数据，开发了能够同时优化多个推荐目标的模型。此外，Tenrec还激发了关于推荐系统数据集构建和评估方法的讨论，推动了推荐系统领域的标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集