five

Missing Modality Product Completion Benchmark (MMPCBench)

收藏
arXiv2026-01-28 更新2026-01-29 收录
下载链接:
https://amazon-reviews-2023.github.io/
下载链接
链接失效反馈
官方服务:
资源简介:
MMPCBench是由格拉斯哥大学联合亚马逊等机构构建的电商多模态补全基准测试,包含内容质量补全和推荐系统两个子任务。数据集基于2024版亚马逊评论数据,涵盖美妆、家居、电子产品等9大品类共9000条商品记录,每条包含图文双模态信息。通过人工构造缺失模态场景,评估MLLM模型在图文互生成任务中的表现,旨在解决电商平台因模态缺失导致的下游推荐性能下降问题。数据构建过程采用五核过滤法确保样本质量,并引入CLIP相似度等指标进行多维度评估。

MMPCBench is an e-commerce multimodal completion benchmark constructed by the University of Glasgow in collaboration with Amazon and other institutions, covering two subtasks: content quality completion and recommender system. Based on the 2024 version of Amazon review data, the dataset includes 9000 product records spanning 9 major categories such as beauty, home goods, and consumer electronics. Each record contains bimodal information of both text and image. By artificially constructing missing modality scenarios, MMPCBench evaluates the performance of Multimodal Large Language Models (MLLMs) in cross-modal text-image generation tasks, aiming to solve the problem of degraded downstream recommendation performance caused by missing modalities on e-commerce platforms. The data construction process employs five-core filtering to ensure sample quality, and introduces metrics including CLIP similarity for multi-dimensional evaluation.
提供机构:
格拉斯哥大学; 亚马逊; Telefónica科学研究院; 新加坡国立大学; 山东大学
创建时间:
2026-01-28
搜集汇总
数据集介绍
main_image_url
构建方式
在电子商务领域,产品信息的多模态完整性对推荐系统与用户体验至关重要,然而实际场景中常因标注遗漏或数据迁移导致图像或文本描述缺失。为系统评估多模态大语言模型在此类缺失模态补全任务中的能力,MMPCBench数据集应运而生。该数据集构建基于2024年3月发布的亚马逊评论数据集最新版本,涵盖美容、家居、电子产品等九大商品类别,并经过五核过滤确保每个条目均具备完整的文本描述与产品封面图像。针对内容质量评估,每个类别均匀采样1000个商品,形成平衡的基准测试集;同时,为考察补全模态在下游任务中的效用,数据集进一步整合了用户-商品交互记录,支持基于VBPR、BM3与FREEDOM等经典多模态推荐模型的性能验证。
特点
MMPCBench的显著特征在于其双轨评估框架,即内容质量补全基准与推荐基准的有机结合。内容质量基准采用多维度量化指标:针对文本补全任务,引入余弦相似度、欧氏距离、词元重叠率与BERTScore;针对图像补全任务,则综合PSNR、SSIM、MSE、LPIPS与CLIP相似度,全面衡量生成内容在词汇、像素及语义层面的对齐程度。推荐基准则创新性地将生成模态嵌入实际推荐管道,通过Recall@k与NDCG@k等指标量化补全内容对下游任务的影响。此外,数据集覆盖九大商品类别,揭示了任务难度随类别与方向(图像到文本与文本到图像)的动态变化,例如视频游戏类在图像到文本任务中表现优异,而在文本到图像任务中却最具挑战性,凸显了跨模态生成的不对称性。
使用方法
使用MMPCBench时,研究者首先需加载预处理后的多模态商品数据,随机掩蔽单一模态(图像或文本)以模拟真实缺失场景。随后,调用待评估的多模态大语言模型(如Qwen2.5-VL或Gemma-3系列)执行补全生成:对于文本到图像任务,模型输出图像提示词后需经扩散模型渲染为最终图像;对于图像到文本任务,模型直接生成描述文本。生成结果将并行输入两个评估管道:在内容质量管道中,自动计算各项相似度指标并汇总分析;在推荐管道中,将补全模态替换原始模态输入预训练的多模态推荐模型,对比其与真实模态在召回率与归一化折损累计增益上的差异。为进一步优化模型对齐,数据集支持基于群体相对策略优化的微调实验,通过设计任务特定的奖励函数增强生成内容与目标模态的语义一致性。
背景与挑战
背景概述
在电子商务蓬勃发展的背景下,丰富的多模态产品内容,如图像与文本描述,对于商品展示与下游推荐系统至关重要。然而,实际平台中常因标注错误或元数据不完整而出现模态缺失问题,严重影响了产品呈现质量与推荐性能。为系统评估多模态大语言模型在此场景下的补全能力,来自格拉斯哥大学、亚马逊等机构的联合研究团队于2026年提出了缺失模态产品补全基准(MMPCBench)。该基准作为首个专注于电子商务领域缺失模态补全任务的标准化评估框架,旨在探索MLLMs在图像到文本与文本到图像双向补全任务中的潜力,并为多模态内容生成与推荐系统的研究提供了重要的实验平台。
当前挑战
MMPCBench所针对的核心领域挑战在于解决电子商务中因模态缺失导致的产品信息不完整问题,这直接影响用户感知与推荐系统的有效性。具体而言,现有MLLMs在语义层面虽能捕捉高层含义,但在细粒度词级与像素级对齐上仍存在显著困难,导致生成内容与原始模态在精确度上存在差距。在构建过程中,基准面临多方面的挑战:首先,需要从大规模真实电商数据中筛选并构建涵盖九大产品类别的平衡数据集,同时避免与模型预训练数据发生泄漏;其次,设计兼顾内容质量与下游推荐效用的双轨评估体系,需整合多种自动指标与推荐模型,确保评估的全面性与可靠性;此外,不同产品类别与补全方向间的性能差异显著,增加了基准设计的复杂性,需通过系统实验揭示模型在不同场景下的泛化能力与局限性。
常用场景
经典使用场景
在电子商务领域,商品目录中普遍存在模态信息缺失的问题,例如产品图像或文本描述的遗漏,这严重影响了商品展示的完整性以及下游推荐系统的性能。MMPCBench数据集正是针对这一现实挑战而构建,其最经典的使用场景在于评估多模态大语言模型在跨模态生成任务中的表现。该数据集通过构建内容质量完成基准和推荐基准,系统性地测试模型在图像到文本以及文本到图像生成任务上的能力,涵盖了从美容、电子产品到视频游戏等多个真实商品类别,为研究社区提供了一个标准化的评估平台,用以衡量模型在复杂商业环境中的实际生成效果。
实际应用
MMPCBench数据集的实际应用场景紧密围绕电子商务平台的运营需求展开。当在线商城的商品列表因标注错误或元数据不完整而缺少图像或描述时,利用训练有素的MLLMs可以自动生成缺失的模态内容,从而显著提升商品页面的展示质量。生成的文本描述或产品图像能够直接用于前端展示,增强用户体验。更重要的是,补全后的多模态数据可以作为下游推荐系统(如VBPR、BM3、FREEDOM等模型)的输入,有效缓解因数据缺失导致的推荐性能下降问题。该数据集评估了生成内容在推荐任务中的替代效用,证明其在保持推荐精度方面的潜力,为平台实现自动化内容补全和库存优化提供了切实可行的技术路径。
衍生相关工作
MMPCBench数据集的提出,激发了一系列围绕缺失模态补全和跨模态生成的衍生研究工作。在方法层面,该数据集采用的Group Relative Policy Optimization(GRPO)微调策略,为提升MLLMs在特定任务上的对齐能力提供了新思路,尤其在图像到文本生成方向上取得了显著改进。其构建的基准框架也启发了后续研究,例如探索更复杂的多级奖励机制以攻克文本到图像生成的瓶颈。在应用层面,该数据集为基于图神经网络的属性传播方法(如Liu等人和Malitesta等人的工作)以及生成式模型(如DGMRec)提供了新的评估场景和对比基线。这些衍生工作共同推动了商品域乃至更广泛的多模态环境中,缺失信息补全技术向更高效、更实用的方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作