2021 RecSys Challenge Dataset
收藏arXiv2021-09-22 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2109.08245v3
下载链接
链接失效反馈官方服务:
资源简介:
2021 RecSys Challenge Dataset是由ACM RecSys Challenge 2021发布的一个大型数据集,包含约10亿条数据,主要用于研究和开发推荐系统。该数据集特别关注公平性问题,确保数据与Twitter平台同步更新,以维护用户隐私。数据集内容包括用户、推文和互动特征,采用BERT tokenization处理文本数据。创建过程中,数据集通过平衡正负样本,确保不泄露用户隐私。该数据集主要应用于推荐系统的公平性研究,旨在解决推荐系统中可能存在的偏见和不公平问题。
The 2021 RecSys Challenge Dataset is a large-scale dataset released by the ACM RecSys Challenge 2021, containing approximately 1 billion data entries and primarily intended for research and development of recommendation systems. It specifically focuses on fairness issues, and is synchronized with the Twitter platform to maintain data timeliness while safeguarding user privacy. The dataset covers user, tweet and interaction features, and uses BERT tokenization for text data processing. During its creation, positive and negative samples were balanced to avoid user privacy leakage. This dataset is mainly applied to fairness research on recommendation systems, aiming to resolve potential biases and unfairness issues in recommendation systems.
提供机构:
ACM RecSys Challenge 2021
创建时间:
2021-09-17
搜集汇总
数据集介绍

构建方式
2021 RecSys Challenge Dataset 源自 Twitter 平台上一段为期四周的公开用户活动快照,其中前三周数据用于训练,最后一周用于验证与测试。数据集规模接近十亿条记录,正负样本均衡。为保护用户隐私,负样本采用“伪负例”策略:对于每位读者,收集其关注者发布的公开推文,剔除已产生公开互动的部分,从剩余推文中采样作为负例,这些推文可能被看到也可能未被看到。数据集特征分为用户、推文和互动三大类,推文文本以 BERT 词元形式发布,避免明文带来的重识别风险。数据集持续同步 Twitter 平台,用户删除内容后相应数据会被及时移除。
特点
该数据集的核心特点在于首次将公平性纳入推荐系统挑战的评估体系。具体而言,依据推文作者的粉丝数量将用户划分为五个分位组,要求推荐质量在不同受欢迎程度群体间保持独立,避免对低人气作者产生系统性偏差。评估指标采用平均精度和相对交叉熵,并跨组平均后排序,以惩罚仅对热门用户表现良好的模型。此外,数据集引入时间约束,要求参赛模型在固定硬件上于24小时内完成推理,间接激励低延迟方案。数据量较前一年增长五倍,是当时最大的公开社交媒体推荐系统数据集。
使用方法
参赛者需先获得 Twitter API 使用许可并遵守开发者协议,方可访问数据集。使用过程中必须持续更新数据集,删除已从平台移除的内容。任务定义为给定(读者,推文)对,公平预测读者产生点赞、回复、转推或引用四种互动之一的概率。模型训练阶段可自由选择硬件,测试阶段需提交代码并在配备 1 CPU 和 64GB RAM 的 Docker 实例上运行,限时 24 小时。基线模型采用特征处理与三层多层感知机结合,对数值特征进行 z-score 归一化,类别特征使用独热编码,ID 特征哈希处理,推文文本经预训练 BERT 嵌入,最终输出四类互动的 sigmoid 概率。
背景与挑战
背景概述
推荐系统作为现代社交媒体平台的核心组件,深刻影响着用户的内容消费体验与信息传播效率。2021年,由Twitter研究团队主导,联合学术界多位学者共同发布的RecSys Challenge Dataset,旨在推动推荐系统在真实大规模场景下的公平性研究。该数据集规模宏大,包含近10亿条数据记录,是当时最大的公开社交媒体推荐数据集之一。核心研究问题聚焦于如何在预测用户与推文互动概率的同时,确保推荐结果不受作者受欢迎程度的影响,从而引入公平性作为评价指标。这一创新举措不仅呼应了机器学习公平性领域对真实世界数据集的迫切需求,也为后续推荐系统挑战赛树立了兼顾精度与公平的新标杆。
当前挑战
该数据集面临的挑战主要涵盖两个层面。在领域问题层面,推荐系统需在Twitter海量动态内容中实现毫秒级响应,同时解决用户隐私保护与数据动态更新的矛盾,例如用户删除内容后数据集需同步清洗。此外,公平性指标的引入要求模型在优化预测精度的同时,确保不同受欢迎程度作者的内容获得无偏推荐,避免反馈循环加剧马太效应。在构建过程中,挑战尤为突出:为保护隐私,仅使用公开特征并采用BERT令牌化处理文本,但伪负样本的采样方式(因无法获取真实未曝光样本)可能导致模型性能偏差;数据集的动态缩减去重机制虽保障了用户权益,却使不同时间访问的参与者面临基准不一致的问题,增加了公平比较的复杂度。
常用场景
经典使用场景
2021 RecSys Challenge Dataset 作为迄今为止规模最大的公开社交媒体推荐系统数据集之一,其经典使用场景聚焦于大规模用户与推文之间的交互预测。研究者利用该数据集构建并评估推荐排序模型,通过预测点赞、回复、转发和引用四种互动行为,模拟Twitter主页时间线的个性化内容排序。数据集包含近10亿条记录,并提供了丰富的特征,如用户属性、推文文本的BERT嵌入以及互动细节,使其成为训练和测试深度学习与树模型等先进推荐算法的理想基准平台。
实际应用
在实际应用中,该数据集直接模拟了Twitter等社交媒体平台的核心推荐场景:为用户从海量实时推文中筛选出最相关的内容。参赛者构建的模型需在24小时内完成对完整测试集的评分,这间接鼓励了低延迟、高效率的解决方案,契合工业部署对实时性的严苛要求。此外,数据集通过动态数据清洗机制(同步删除用户已删除的推文)强化了对用户隐私和内容自主权的尊重,为构建负责任、可信任的在线推荐系统提供了实践范例。
衍生相关工作
该数据集衍生了一系列经典工作,特别是ACM RecSys 2021挑战赛的获奖方案。工业界优胜者多采用集成策略,如GPU加速的梯度提升树与深度神经网络堆叠模型,以平衡预测精度与计算效率。学术界则侧重轻量化与冷启动问题,例如利用LightGBM或双分支架构区分高互动与低互动作者,并借助用户相似性缓解稀疏数据挑战。这些工作不仅验证了多种模型在超大规模推荐任务中的表现,还催生了关于公平性指标设计、特征工程优化以及资源受限环境下模型部署的后续研究。
以上内容由遇见数据集搜集并总结生成



