MicroLens_1M

github2025-02-05 更新2025-02-26 收录

下载链接：

https://github.com/reczoo/WWW2025_MMCTR_Challenge

下载链接

链接失效反馈

官方服务：

资源简介：

README中未提供数据集中文描述，需要翻译

No Chinese description of the dataset is provided in the README, and translation is required.

创建时间：

2025-01-26

原始信息汇总

WWW2025_MMCTR_Challenge数据集概述

数据集基本信息

数据集名称：WWW2025_MMCTR_Challenge
主办方：WWW 2025 EReL@MIR workshop
挑战赛官网：https://www.codabench.org/competitions/5372/
详细信息页面：https://erel-mir.github.io/challenge/mmctr-track2/

挑战任务

多模态物品嵌入任务
- 目标：开发适用于推荐任务的多模态表示学习和融合方法。
多模态CTR预测任务
- 目标：设计有效利用嵌入特征提升推荐准确率的CTR预测模型。

数据集内容

数据下载地址：https://recsys.westlake.edu.cn/MicroLens_1M_MMCTR
文件结构：
- MicroLens_1M_x1/train.parquet
- MicroLens_1M_x1/valid.parquet
- MicroLens_1M_x1/test.parquet
- MicroLens_1M_x1/item_info.parquet
- item_feature.parquet
- item_emb.parquet
- item_seq.parquet
- item_images.rar

基准模型

基础框架：FuxiCTR (https://github.com/reczoo/FuxiCTR)
基准模型配置：config/DIN_microlens_mmctr_tuner_config_01.yaml
最佳验证AUC：0.8655

环境要求

GPU服务器配置：
- GPU内存：16G
- RAM：750G
软件环境：
- Python 3.9
- torch==1.13.1+cu117
- fuxictr==2.3.7

引用文献

Jieming Zhu等. Open Benchmarking for Click-Through Rate Prediction. CIKM 2021.

改进方向

探索DIN模型外的其他CTR预测模型
尝试使用新的LLMs/MLLMs进行多模态物品嵌入
研究多模态嵌入特征融合的其他方法

搜集汇总

数据集介绍

构建方式

MicroLens_1M数据集是在WWW2025 MM-CTR挑战的背景下构建的，旨在推动多模态CTR预测模型的发展。该数据集基于FuxiCTR库构建 baseline，该库以其可配置、可调整和可重现的特性被ACM RecSys Conference列为推荐框架。数据集包含用户行为序列、商品信息、文本和图像嵌入等多种模态信息，通过下载、解压数据文件并进行预处理，形成了可用于模型训练和测试的格式。

特点

MicroLens_1M数据集的特点在于其多模态特性，包含了丰富的商品信息和用户行为数据。数据集以Parquet格式存储，便于高效处理和分析。此外，数据集提供了文本和图像的预训练嵌入，有助于减少模型训练的复杂性并提升模型性能。挑战任务分为多模态商品嵌入和多模态CTR预测，旨在推动具有实际应用价值的研究。

使用方法

使用MicroLens_1M数据集首先需要配置适当的环境，包括Python、Torch和FuxiCTR库。训练模型时，可通过调整配置文件中的超参数进行网格搜索以优化模型。完成训练后，模型可在测试集上进行预测，并将结果提交至 leaderboard。数据集的使用涉及数据下载、预处理、模型训练、超参数调整、测试和提交结果等多个步骤，流程清晰且易于上手。

背景与挑战

背景概述

MicroLens_1M数据集是在WWW 2025 EReL@MIR研讨会框架下构建的，旨在推动多模态点击率（CTR）预测领域的研究。该数据集由Jieming Zhu等研究人员创建，并在2021年的ACM国际信息与知识管理会议（CIKM）上发表了相关基准测试论文。数据集的核心研究问题是提升推荐系统的CTR预测准确性，通过多模态项目嵌入和CTR预测两项子任务，为工业应用提供具有实际价值和洞见的解决方案。

当前挑战

该数据集在研究领域中面临的挑战包括：1) 如何有效融合多模态信息，提高CTR预测模型的性能；2) 构建过程中，如何处理大规模多模态数据，并确保模型的可扩展性和效率。具体挑战体现在多模态特征提取、融合策略的选择以及模型优化等方面。

常用场景

经典使用场景

MicroLens_1M数据集作为WWW2025 MM-CTR挑战的组成部分，其经典使用场景主要聚焦于多模态项目嵌入和点击率预测。该数据集通过提供丰富的多模态信息，如文本描述、图像嵌入等，使得研究者能够探索和开发适用于推荐系统的多模态表示学习和融合方法。

实际应用

在实际应用中，MicroLens_1M数据集的应用场景广泛，尤其在电子商务、社交媒体等领域的个性化推荐系统中，能够帮助平台更准确地预测用户对商品或内容的点击概率，从而提升用户体验和内容分发效率。

衍生相关工作

基于MicroLens_1M数据集，已衍生出多项相关工作，包括但不限于探索新的多模态嵌入模型、融合策略以及对比学习等，这些研究进一步拓展了多模态CTR预测的理论和实践边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集