five

AliExpressDataset

收藏
github2022-11-30 更新2024-05-31 收录
下载链接:
https://github.com/easezyc/Multitask-Recommendation-Library
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个从AliExpress搜索系统的真实流量日志中收集的数据集,涵盖了俄罗斯、西班牙、法国、荷兰和美国5个国家,可用作5个多任务数据集。

This dataset is collected from the real traffic logs of the AliExpress search system, covering five countries: Russia, Spain, France, the Netherlands, and the United States. It can be used as a multi-task dataset for these five regions.
创建时间:
2022-03-06
原始信息汇总

数据集概述

数据集名称

  • AliExpressDataset

数据集描述

  • 该数据集是从AliExpress的搜索系统真实流量日志中收集的,涵盖了俄罗斯、西班牙、法国、荷兰和美国5个国家,可作为5个多任务数据集使用。

数据集来源

数据集使用方法

  • 对于处理后的数据集,直接放置在./data/目录下并解压。
  • 对于原始数据集,放置在./data/目录下,并运行python preprocess.py --dataset_name NL进行预处理。

模型与结果

支持的模型

  • SingleTask
  • Shared-Bottom
  • OMoE
  • MMoE
  • PLE
  • AITM
  • MetaHeac

结果概览

  • 结果包括AUC和Logloss指标,针对不同国家和任务(CTR和CTCVR)进行了比较。
  • 最佳结果以粗体显示。

示例结果

  • AliExpress (Netherlands, NL)

    • 最佳模型:PLE(CTR AUC: 0.7292,CTCVR AUC: 0.8913)
    • 最佳模型:MetaHeac(CTR Logloss: 0.1077,CTCVR Logloss: 0.00606)
  • AliExpress (Spain, ES)

    • 最佳模型:MetaHeac(CTR AUC: 0.7299,CTCVR Logloss: 0.00450)
  • AliExpress (French, FR)

    • 最佳模型:PLE(CTR AUC: 0.7276,CTR Logloss: 0.0992)
    • 最佳模型:MMoE(CTCVR AUC: 0.8758,CTCVR Logloss: 0.00377)
  • AliExpress (America, US)

    • 最佳模型:PLE(CTR AUC: 0.7138,CTR Logloss: 0.0992)
    • 最佳模型:MMoE(CTCVR AUC: 0.8758,CTCVR Logloss: 0.00377)
搜集汇总
数据集介绍
main_image_url
构建方式
AliExpressDataset 数据集源自 AliExpress 搜索系统的真实流量日志,涵盖了俄罗斯、西班牙、法国、荷兰和美国五个国家的用户行为数据。该数据集通过收集这些国家的用户交互记录,形成了五个独立的子数据集,每个子数据集均可作为多任务学习的独立数据源。数据集的构建过程包括原始数据的收集、预处理以及分割,最终形成了适用于多任务推荐模型的训练和测试数据。
特点
AliExpressDataset 数据集的显著特点在于其多任务学习的适用性,涵盖了点击率(CTR)和转化率(CVR)等多个任务。此外,数据集的多样性体现在其覆盖了五个不同国家的用户行为,为跨文化推荐系统的研究提供了丰富的数据支持。数据集的预处理步骤确保了数据的质量和一致性,使其能够支持多种推荐模型的训练与评估。
使用方法
使用 AliExpressDataset 数据集时,用户需将数据集放置在指定的目录下,并根据需要运行预处理脚本。数据集支持多种模型训练,包括单任务模型和多任务模型。用户可以通过配置参数如模型名称、任务数量、专家数量等来定制训练过程。训练完成后,可以通过评估指标如AUC和Logloss来衡量模型的性能。数据集的使用方法灵活,适用于多种推荐系统的研究和开发。
背景与挑战
背景概述
AliExpressDataset是由阿里巴巴集团旗下的AliExpress平台收集的真实搜索系统流量日志数据集,涵盖了俄罗斯、西班牙、法国、荷兰和美国五个国家的用户行为数据。该数据集的创建旨在支持多任务推荐系统的研究,特别是针对点击率(CTR)和转化率(CVR)的预测任务。通过提供多任务学习模型的训练和测试数据,AliExpressDataset为研究人员提供了一个公平比较的平台,推动了多任务推荐算法的发展。该数据集的发布不仅为推荐系统领域的研究提供了宝贵的资源,还为跨文化、跨地域的用户行为分析提供了丰富的数据支持。
当前挑战
AliExpressDataset在构建过程中面临的主要挑战包括数据的多源性和异质性,不同国家的用户行为模式差异显著,增加了模型泛化能力的难度。此外,数据集的预处理过程复杂,需要对原始数据进行清洗、归一化和分割,以确保数据的质量和一致性。在应用层面,多任务推荐模型的设计需要平衡不同任务之间的关系,避免任务间的冲突,同时提高模型的预测精度。这些挑战不仅推动了多任务学习算法的研究进展,也为推荐系统在实际应用中的性能优化提供了新的思路。
常用场景
经典使用场景
AliExpressDataset 在多任务推荐系统中展现了其经典应用场景,尤其是在处理点击率(CTR)和转化率(CVR)预测任务时。该数据集通过收集来自俄罗斯、西班牙、法国、荷兰和美国等五个国家的真实搜索系统日志,为多任务学习模型提供了丰富的跨文化数据支持。通过这些数据,研究者能够构建和验证多任务推荐模型,如MMoE和PLE,以提升推荐系统的精准度和用户满意度。
衍生相关工作
AliExpressDataset 的发布催生了一系列相关研究工作,特别是在多任务学习和推荐系统领域。基于该数据集,研究者们提出了多种创新的多任务学习模型,如PLE和MetaHeac,这些模型在处理任务间关系和提升推荐性能方面表现出色。此外,该数据集还激发了对跨文化推荐系统的深入研究,推动了个性化推荐技术在不同文化背景下的应用和优化。
数据集最近研究
最新研究方向
在推荐系统领域,AliExpressDataset因其来源于真实世界的多任务推荐场景而备受关注。该数据集涵盖了俄罗斯、西班牙、法国、荷兰和美国等多个国家的搜索系统日志,为多任务学习提供了丰富的数据支持。近年来,多任务推荐模型如MMoE、PLE和MetaHeac等在该数据集上的应用取得了显著进展,尤其是在任务间关系建模和个性化推荐方面。这些模型通过共享底层结构或专家混合机制,有效提升了点击率(CTR)和转化率(CVR)的预测精度,推动了多任务学习在电商推荐系统中的前沿应用。此外,AliExpressDataset的跨文化数据特性也为全球市场的个性化推荐研究提供了宝贵的资源,进一步促进了推荐系统在国际化背景下的优化与创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作