five

Scenario-Wise Rec|推荐系统数据集|多场景推荐数据集

收藏
arXiv2024-12-23 更新2024-12-25 收录
推荐系统
多场景推荐
下载链接:
https://github.com/Xiaopengli1/Scenario-Wise-Rec
下载链接
链接失效反馈
资源简介:
Scenario-Wise Rec是一个专为多场景推荐任务设计的数据集,由香港城市大学和华为诺亚方舟实验室创建。该数据集包含6个公共数据集,涵盖了电影、广告、新闻推荐等多个领域,数据量庞大,涉及数百万用户和物品交互。数据集的创建过程包括统一的数据预处理和评估协议,确保了数据的标准化和公平比较。该数据集主要应用于多场景推荐模型的研究和开发,旨在解决不同场景下的推荐性能提升问题,促进多场景推荐领域的研究合作。
提供机构:
香港城市大学
创建时间:
2024-12-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
Scenario-Wise Rec数据集通过整合六个公开的多场景数据集和一个工业广告数据集构建而成。这些数据集涵盖了不同的场景,如电影推荐、广告推荐、新闻推荐等,每个场景都有特定的用户和物品特征。数据集的构建过程中,采用了统一的数据预处理流程,确保不同场景数据的标准化处理,从而为多场景推荐模型的公平比较提供了基础。此外,数据集还包含了十二个广泛认可的多场景推荐模型,这些模型在统一的接口下进行了复现和评估,进一步增强了数据集的实用性和可复现性。
特点
Scenario-Wise Rec数据集的主要特点在于其多场景的多样性和广泛性。数据集包含了六个公开数据集和一个工业数据集,涵盖了从电影推荐到广告推荐等多个领域,每个场景都有独特的用户行为和物品特征。此外,数据集还提供了十二个多场景推荐模型的复现版本,这些模型在不同的场景下表现出色,为研究者提供了丰富的实验基准。数据集的开放性和标准化处理流程也使得其在学术界和工业界具有广泛的应用价值。
使用方法
Scenario-Wise Rec数据集的使用方法相对简单且灵活。研究者可以通过统一的接口访问数据集,并使用预处理后的数据进行模型训练和评估。数据集提供了详细的教程,涵盖了环境设置、数据下载、预处理、模型训练和评估等步骤,帮助用户快速上手。此外,数据集还支持用户自定义模型设计,用户可以根据自己的需求选择不同的模型进行实验,并通过数据集提供的评估指标(如AUC和Logloss)来衡量模型的性能。数据集的开放源代码和详细的实验设置也使得研究者能够轻松复现实验结果,推动多场景推荐领域的研究进展。
背景与挑战
背景概述
Scenario-Wise Rec数据集由香港城市大学和华为诺亚方舟实验室的研究团队于2024年提出,旨在解决多场景推荐(Multi-Scenario Recommendation, MSR)任务中的关键问题。该数据集的核心研究问题是如何构建一个统一的模型,以在多个推荐场景中提升性能。多场景推荐任务要求模型能够跨不同场景进行知识迁移,从而在数据稀疏的场景中提升推荐效果。Scenario-Wise Rec数据集包含了6个公开数据集和12个基准模型,并提供了一个完整的训练和评估流程,旨在为学术界和工业界提供一个公平且可重复的比较框架。该数据集的提出填补了多场景推荐领域缺乏统一基准的空白,推动了该领域的研究进展。
当前挑战
Scenario-Wise Rec数据集面临的主要挑战包括:首先,多场景数据集的处理缺乏统一的标准化流程,导致模型之间的比较不公平;其次,许多现有的多场景推荐模型由于企业隐私保护政策而未开源,阻碍了研究的复现性和进展。此外,构建多场景推荐模型时,如何在不同场景之间平衡共享信息和特定信息,以提升整体预测准确性,也是一个重要的技术难题。另一个挑战是如何在数据稀疏的场景中保持模型的性能,避免因数据分布不均导致的性能波动。
常用场景
经典使用场景
Scenario-Wise Rec 数据集的经典使用场景主要集中在多场景推荐任务中,旨在通过构建统一的模型来提升不同推荐场景下的性能。该数据集包含了六个公开数据集和一个工业广告数据集,涵盖了多种推荐场景,如广告推荐、视频推荐、新闻推荐等。通过这些数据集,研究者可以训练和评估多场景推荐模型,探索如何在不同场景间进行知识迁移,从而提高推荐系统的整体表现。
衍生相关工作
Scenario-Wise Rec 数据集的发布催生了一系列相关的经典工作,特别是在多场景推荐模型的设计和评估方面。例如,STAR 模型通过共享网络和场景特定网络的结合,有效提升了多场景推荐的表现;SAR-Net 模型则通过引入场景感知的注意力机制,进一步优化了推荐效果。此外,HAMUR 模型通过超适配器技术,动态调整不同场景的参数,显著提升了模型的适应性和性能。这些工作都基于 Scenario-Wise Rec 数据集进行了验证,推动了多场景推荐领域的快速发展。
数据集最近研究
最新研究方向
Scenario-Wise Rec 数据集的最新研究方向主要集中在多场景推荐(Multi-Scenario Recommendation, MSR)任务上,旨在构建一个统一的模型,以提升不同推荐场景下的性能。当前的研究面临两大挑战:缺乏统一的多场景数据处理流程,导致模型比较不公平;许多模型由于企业隐私保护政策而未开源,阻碍了研究的进展。为此,Scenario-Wise Rec 提供了一个包含6个公开数据集和12个基准模型的基准,通过标准化的数据处理、模型训练和评估流程,促进了多场景推荐领域的公平比较和可重复性。该基准不仅为学术界和工业界提供了宝贵的研究资源,还通过在实际广告数据集上的验证,展示了其在真实场景中的可靠性和适用性。未来,研究者可以基于该基准进一步探索多场景推荐中的知识迁移、场景分割以及大规模语言模型在场景对齐中的应用。
相关研究论文
  • 1
    Scenario-Wise Rec: A Multi-Scenario Recommendation Benchmark香港城市大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

ISIC 2018

ISIC 2018数据集包含2594张皮肤病变图像,用于皮肤癌检测任务。数据集分为训练集、验证集和测试集,每张图像都附有详细的元数据,包括病变类型、患者年龄、性别和解剖部位等信息。

challenge2018.isic-archive.com 收录