AliExpressDataset

github2022-11-30 更新2024-05-31 收录

下载链接：

https://github.com/easezyc/Multitask-Recommendation-Library

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个从AliExpress搜索系统的真实流量日志中收集的数据集，涵盖了俄罗斯、西班牙、法国、荷兰和美国5个国家，可用作5个多任务数据集。

This dataset is collected from the real traffic logs of the AliExpress search system, covering five countries: Russia, Spain, France, the Netherlands, and the United States. It can be used as a multi-task dataset for these five regions.

创建时间：

2022-03-06

原始信息汇总

数据集概述

数据集名称

AliExpressDataset

数据集描述

该数据集是从AliExpress的搜索系统真实流量日志中收集的，涵盖了俄罗斯、西班牙、法国、荷兰和美国5个国家，可作为5个多任务数据集使用。

数据集来源

原始数据集：天池数据集
处理后数据集：
- Google Drive：链接
- 百度网盘：链接

数据集使用方法

对于处理后的数据集，直接放置在./data/目录下并解压。
对于原始数据集，放置在./data/目录下，并运行python preprocess.py --dataset_name NL进行预处理。

模型与结果

支持的模型

SingleTask
Shared-Bottom
OMoE
MMoE
PLE
AITM
MetaHeac

结果概览

结果包括AUC和Logloss指标，针对不同国家和任务（CTR和CTCVR）进行了比较。
最佳结果以粗体显示。

示例结果

AliExpress (Netherlands, NL)
- 最佳模型：PLE（CTR AUC: 0.7292，CTCVR AUC: 0.8913）
- 最佳模型：MetaHeac（CTR Logloss: 0.1077，CTCVR Logloss: 0.00606）
AliExpress (Spain, ES)
- 最佳模型：MetaHeac（CTR AUC: 0.7299，CTCVR Logloss: 0.00450）
AliExpress (French, FR)
- 最佳模型：PLE（CTR AUC: 0.7276，CTR Logloss: 0.0992）
- 最佳模型：MMoE（CTCVR AUC: 0.8758，CTCVR Logloss: 0.00377）
AliExpress (America, US)
- 最佳模型：PLE（CTR AUC: 0.7138，CTR Logloss: 0.0992）
- 最佳模型：MMoE（CTCVR AUC: 0.8758，CTCVR Logloss: 0.00377）

搜集汇总

数据集介绍

构建方式

AliExpressDataset 数据集源自 AliExpress 搜索系统的真实流量日志，涵盖了俄罗斯、西班牙、法国、荷兰和美国五个国家的用户行为数据。该数据集通过收集这些国家的用户交互记录，形成了五个独立的子数据集，每个子数据集均可作为多任务学习的独立数据源。数据集的构建过程包括原始数据的收集、预处理以及分割，最终形成了适用于多任务推荐模型的训练和测试数据。

特点

AliExpressDataset 数据集的显著特点在于其多任务学习的适用性，涵盖了点击率（CTR）和转化率（CVR）等多个任务。此外，数据集的多样性体现在其覆盖了五个不同国家的用户行为，为跨文化推荐系统的研究提供了丰富的数据支持。数据集的预处理步骤确保了数据的质量和一致性，使其能够支持多种推荐模型的训练与评估。

使用方法

使用 AliExpressDataset 数据集时，用户需将数据集放置在指定的目录下，并根据需要运行预处理脚本。数据集支持多种模型训练，包括单任务模型和多任务模型。用户可以通过配置参数如模型名称、任务数量、专家数量等来定制训练过程。训练完成后，可以通过评估指标如AUC和Logloss来衡量模型的性能。数据集的使用方法灵活，适用于多种推荐系统的研究和开发。

背景与挑战

背景概述

AliExpressDataset是由阿里巴巴集团旗下的AliExpress平台收集的真实搜索系统流量日志数据集，涵盖了俄罗斯、西班牙、法国、荷兰和美国五个国家的用户行为数据。该数据集的创建旨在支持多任务推荐系统的研究，特别是针对点击率（CTR）和转化率（CVR）的预测任务。通过提供多任务学习模型的训练和测试数据，AliExpressDataset为研究人员提供了一个公平比较的平台，推动了多任务推荐算法的发展。该数据集的发布不仅为推荐系统领域的研究提供了宝贵的资源，还为跨文化、跨地域的用户行为分析提供了丰富的数据支持。

当前挑战

AliExpressDataset在构建过程中面临的主要挑战包括数据的多源性和异质性，不同国家的用户行为模式差异显著，增加了模型泛化能力的难度。此外，数据集的预处理过程复杂，需要对原始数据进行清洗、归一化和分割，以确保数据的质量和一致性。在应用层面，多任务推荐模型的设计需要平衡不同任务之间的关系，避免任务间的冲突，同时提高模型的预测精度。这些挑战不仅推动了多任务学习算法的研究进展，也为推荐系统在实际应用中的性能优化提供了新的思路。

常用场景

经典使用场景

AliExpressDataset 在多任务推荐系统中展现了其经典应用场景，尤其是在处理点击率（CTR）和转化率（CVR）预测任务时。该数据集通过收集来自俄罗斯、西班牙、法国、荷兰和美国等五个国家的真实搜索系统日志，为多任务学习模型提供了丰富的跨文化数据支持。通过这些数据，研究者能够构建和验证多任务推荐模型，如MMoE和PLE，以提升推荐系统的精准度和用户满意度。

衍生相关工作

AliExpressDataset 的发布催生了一系列相关研究工作，特别是在多任务学习和推荐系统领域。基于该数据集，研究者们提出了多种创新的多任务学习模型，如PLE和MetaHeac，这些模型在处理任务间关系和提升推荐性能方面表现出色。此外，该数据集还激发了对跨文化推荐系统的深入研究，推动了个性化推荐技术在不同文化背景下的应用和优化。

数据集最近研究