TaoBao-MM/Taobao-MM

Name: TaoBao-MM/Taobao-MM
Creator: TaoBao-MM
Published: 2026-01-15 09:10:46
License: 暂无描述

Hugging Face2026-01-15 更新2025-12-20 收录

下载链接：

https://hf-mirror.com/datasets/TaoBao-MM/Taobao-MM

下载链接

链接失效反馈

官方服务：

资源简介：

TAOBAO-MM是一个基于淘宝用户交互日志的大规模推荐数据集，包含长达1000次交互的用户行为序列和高质量的多模态物品嵌入。该数据集旨在支持长序列推荐和多模态内容建模的研究。数据集包含8.79百万用户、35.4百万物品和99百万样本，分为76M训练集和23M测试集。由于隐私和版权限制，所有基于ID的特征均已匿名化，且未发布原始多模态内容（如图片），但提供了预计算的128维多模态嵌入。数据集以Parquet文件形式分发，包括训练样本、测试样本、用户特征、物品特征和多模态嵌入表。

TAOBAO-MM is a large-scale recommendation dataset derived from user interaction logs on Taobao, featuring historical behavior sequences of up to 1,000 interactions per user and high-quality multimodal embeddings for items. The dataset aims to support research in long-sequence recommendation and multimodal content modeling. It includes interaction logs from 8.79 million users, 35.4 million distinct items, and 99 million labeled samples, partitioned into a training set of 76M and a test set of 23M instances. Due to privacy and copyright restrictions, all ID-based features are anonymized, and raw multimodal content (e.g., item images) is not released, but pre-computed 128-dimensional multimodal embeddings are provided. The dataset is distributed as a collection of Parquet files, including training samples, test samples, user features, item features, and multimodal embedding tables.

提供机构：

TaoBao-MM

搜集汇总

数据集介绍

构建方式

在电子商务推荐系统领域，构建能够反映真实用户长期兴趣的数据集至关重要。TAOBAO-MM数据集源于全球领先的电商平台淘宝，其构建过程严谨地遵循了现实世界的交互逻辑。研究团队从平台匿名化的用户交互日志中，提取了约879万用户与3540万商品之间的9900万条交互样本，并依据时间顺序划分为7600万条训练样本和2300万条测试样本，确保了数据动态演化的真实性。为保护隐私与版权，原始多模态内容未被公开，取而代之的是通过语义感知对比学习框架预生成的128维商品嵌入表示。数据以结构化的Parquet文件形式组织，核心表格通过用户ID、商品ID等关键字段进行关联整合，形成了完整且可直接用于模型训练的数据流水线。

特点

该数据集在推荐系统研究中展现出若干鲜明特征，其最突出的贡献在于首次公开提供了同时包含超长用户行为序列与商品多模态嵌入的大规模资源。每个用户的历史交互序列长度可达1000项，深度刻画了用户的长期兴趣演化轨迹。数据集规模宏大，涵盖了近亿级别的标注样本，为训练复杂的深度推荐模型提供了充足的数据基础。此外，所有商品均配备了经过量化处理的高质量多模态嵌入，这些嵌入捕获了视觉与语义信息，为融合内容理解的推荐算法研究铺平了道路。数据以高效的分片Parquet格式存储，并附有完整的特征映射表，兼顾了使用的便捷性与计算效率。

使用方法

为便利学术研究，TAOBAO-MM数据集可通过HuggingFace Hub便捷获取。使用者安装相应工具包后，通过简单命令行指令即可将总计约139GB的数据集下载至本地。数据集目录结构清晰，包含特征映射、训练集、测试集及原始数据等多个文件夹，研究者可根据需求选择性下载。官方代码库提供了即用的Dataset类实现，支持直接加载预处理后的分片数据，并集成了包括MUSE框架在内的多个基线模型，为快速开展实验与基准测试提供了完整工具链。典型使用流程包括：下载数据、利用提供的类加载数据、继而构建或评估能够融合长序列行为与多模态嵌入的推荐系统模型。

背景与挑战

背景概述

在电子商务推荐系统领域，精准捕捉用户长期且复杂的兴趣动态是提升个性化服务效能的核心。由阿里巴巴集团旗下研究团队于2025年创建的TAOBAO-MM数据集，正是为应对这一核心研究问题而生。该数据集源自全球领先的电商平台淘宝，涵盖了近880万用户与超过3500万商品间的交互记录，其独特之处在于为每个用户提供了长达1000次交互的历史行为序列，并首次公开附带了基于语义感知对比学习框架生成的高质量多模态商品嵌入。这一开创性工作旨在推动长序列多模态推荐模型的学术研究，为解决真实场景中用户兴趣的终身建模问题提供了前所未有的数据基础。

当前挑战

TAOBAO-MM数据集致力于解决长序列多模态推荐这一前沿领域的核心挑战，即如何有效融合超长的用户历史行为与丰富的商品多模态内容以进行精准的点击率预测。构建过程本身亦面临多重挑战：首要挑战在于平衡数据规模与隐私保护，原始的多模态内容（如图像）因版权与隐私限制无法公开，研究团队转而提供经过匿名化处理的ID特征与预计算的多模态嵌入；其次，处理高达9900万样本、序列长度达千级的庞大数据体量，对数据的清洗、对齐、高效存储与分发提出了严峻的技术考验；最后，确保数据划分的时间一致性以模拟真实世界的动态演化，同时提供完整的特征映射与预处理流程，也是构建过程中需要精心设计的复杂环节。

常用场景

经典使用场景

在电子商务推荐系统领域，TAOBAO-MM数据集为研究长序列用户行为建模提供了经典场景。该数据集源自淘宝平台真实交互日志，涵盖近九百万用户长达千次的历史行为序列，并附有高质量的多模态商品嵌入。研究者可借此构建模型，模拟用户在超长交互历史中兴趣的演化与衰减，精准预测下一次点击行为，从而探索序列推荐中长期依赖关系的捕捉机制。

实际应用

在实际应用层面，TAOBAO-MM直接服务于大规模电商平台的个性化推荐引擎优化。基于该数据集训练的模型，能够更精准地理解用户跨越长期周期的兴趣偏好，从而提升商品点击率与转化率。其提供的多模态信息可助力实现跨域推荐、冷启动商品推广以及多样性与准确性平衡等工业级需求，为构建下一代智能推荐系统提供了关键数据支撑。

衍生相关工作

围绕TAOBAO-MM数据集，已衍生出一系列重要的研究工作。其伴随论文提出的MUSE框架，利用多模态搜索机制进行终身用户兴趣建模，为长序列多模态推荐设立了基线。该数据集预计将推动针对超长序列的高效注意力机制、多模态表征与行为序列的融合方法，以及隐私保护下的分布式推荐算法等方向的前沿探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集