five

Tenrec|推荐系统数据集|用户行为分析数据集

收藏
arXiv2023-06-04 更新2024-06-21 收录
推荐系统
用户行为分析
下载链接:
https://github.com/yuangh-x/2022-NIPS-Tenrec*
下载链接
链接失效反馈
资源简介:
Tenrec数据集是由腾讯公司创建的,旨在为推荐系统研究提供一个大规模、多用途的基准数据集。该数据集涵盖了四个不同的推荐场景,包括视频和文章推荐,记录了约500万用户的行为数据,总计约1.4亿次交互。Tenrec不仅包含用户的积极反馈如点击、喜欢、分享和关注,还包含了真实负反馈,即用户未采取行动的曝光数据。此外,数据集还包含用户和物品的额外特征,如用户年龄、性别和视频类别等,这些特征可用于上下文或基于内容的推荐。Tenrec数据集的目的是为了支持多样化的推荐研究,包括跨域推荐、多任务学习、点击率预测等任务,并已用于评估多种推荐模型。
提供机构:
腾讯
创建时间:
2022-10-13
AI搜集汇总
数据集介绍
main_image_url
构建方式
Tenrec数据集通过从腾讯的两个不同推荐平台(QQ BOW和QQ KAN)收集用户行为日志构建而成。具体而言,从2021年9月17日至12月7日期间,随机抽取了约502万用户,要求每个用户至少有5次视频点击行为,并提取他们的反馈数据,包括正反馈(如点击、分享、喜欢和关注)和负反馈(曝光但无用户行为)。此外,还提取了用户的年龄和性别特征以及视频的类型特征。类似的数据提取策略也应用于其他场景(如文章推荐),最终形成了包含四个不同推荐场景的数据集。
特点
Tenrec数据集的主要特点包括:1)大规模,包含约500万用户和1.4亿次交互;2)不仅包含正反馈,还包含真实的负反馈;3)跨四个不同场景的用户和物品存在重叠;4)包含多种类型的用户正反馈,如点击、喜欢、分享和关注等;5)除了用户ID和物品ID外,还包含额外的用户和物品特征。这些特点使得Tenrec成为研究跨域推荐、多任务学习和点击率预测等任务的理想数据集。
使用方法
Tenrec数据集可用于多种推荐任务的评估,包括点击率预测、会话推荐、多任务学习、迁移学习、用户画像预测、冷启动推荐、终身用户表示学习、模型压缩、模型训练加速和模型推理加速等。研究者可以通过运行经典基线模型来验证Tenrec在这些任务上的性能,并探索其在不同推荐场景中的应用潜力。数据集的源代码、数据和排行榜可在GitHub上获取,以促进推荐系统领域的研究。
背景与挑战
背景概述
Tenrec数据集是由Tencent、Westlake University、Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences、University of Science and Technology of China和Sun Yat-sen University的研究人员共同创建的,旨在解决推荐系统(RS)领域中现有基准数据集规模小或用户反馈形式有限的问题。该数据集记录了四个不同推荐场景中的多种用户反馈,具有大规模、包含正负反馈、跨场景用户和物品重叠、多种正反馈形式以及额外特征等特点。Tenrec的创建时间为2021年9月至12月,主要研究人员包括Guanghu Yuan、Fajie Yuan等。该数据集对推荐系统领域的研究具有重要影响,特别是在解决大规模实际应用中的推荐问题方面。
当前挑战
Tenrec数据集面临的挑战主要包括:1) 解决推荐系统领域中数据集规模小和用户反馈形式有限的问题,这些问题限制了推荐模型在实际应用中的有效性;2) 在构建过程中,如何处理和整合来自四个不同推荐场景的数据,确保数据的一致性和可用性;3) 如何有效地利用数据集中的正负反馈和额外特征,以提升推荐模型的性能和实用性;4) 如何确保数据集的隐私和安全,特别是在涉及大规模用户数据时。
常用场景
经典使用场景
Tenrec数据集在推荐系统领域中被广泛用于评估多种推荐任务,包括点击率预测(CTR Prediction)、会话推荐(Session-based Recommendation)、多任务学习推荐(Multi-task Learning for Recommendation)、迁移学习推荐(Transfer Learning for Recommendation)等。其大规模和多用途的特性使得Tenrec成为研究跨域推荐(Cross-domain Recommendation)和终身用户表示学习(Lifelong User Representation Learning)等复杂推荐问题的理想基准。
解决学术问题
Tenrec数据集解决了现有推荐系统数据集规模小、用户反馈形式单一的问题,为学术研究提供了更真实、更丰富的数据环境。通过包含多种用户反馈类型和真实负反馈,Tenrec使得推荐模型能够在更接近实际应用的场景中进行评估,从而推动了推荐系统领域的研究进展。此外,Tenrec的多场景用户和物品重叠特性,为研究跨域推荐和迁移学习提供了宝贵的数据支持。
衍生相关工作
Tenrec数据集的发布催生了一系列相关研究工作,包括但不限于跨域推荐、多任务学习、迁移学习等方向。例如,基于Tenrec的跨域推荐研究探讨了如何在不同推荐场景间共享用户和物品信息,以提升推荐效果;多任务学习研究则利用Tenrec中的多种用户反馈数据,开发了能够同时优化多个推荐目标的模型。此外,Tenrec还激发了关于推荐系统数据集构建和评估方法的讨论,推动了推荐系统领域的标准化进程。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

ERCOT电网综合数据集

ERCOT电网综合数据集是由德克萨斯A&M大学和哈佛大学的研究团队创建的,旨在支持电力系统中的多元时间序列预测。该数据集包含五年内的负荷、电价、辅助服务价格和可再生能源发电数据,具有每小时的时间分辨率和区域级别的详细信息。数据集的创建过程结合了高分辨率的外部预测数据,以提高预测精度。该数据集主要应用于电力系统的预测和优化,旨在解决电网中由于可再生能源集成和需求变化带来的不确定性问题。

arXiv 收录