MUSE

Name: MUSE
Creator: 东北大学计算机科学与工程学院
Published: 2024-12-24 21:08:34
License: 暂无描述

arXiv2024-12-24 更新2024-12-26 收录

下载链接：

https://anonymous.4open.science/r/Muse-0086

下载链接

链接失效反馈

官方服务：

资源简介：

MUSE是由东北大学计算机科学与工程学院开发的首个多模态对话推荐数据集，专注于服装领域。该数据集包含7000个对话，共计83,148条话语，涵盖了丰富的多模态交互和自然对话。数据通过多代理框架自动合成，结合了多模态大语言模型（MLLMs）的力量，创新地从真实场景中生成用户画像，而非依赖人工设计或历史数据。数据集的应用领域主要集中在多模态对话推荐系统，旨在解决传统文本推荐系统在模拟真实购物行为中的不足，特别是在视觉驱动的领域如服装推荐中，提供了更全面的多感官决策支持。

MUSE is the first multimodal conversational recommendation dataset developed by the School of Computer Science and Engineering, Northeastern University, focusing on the fashion domain. This dataset includes 7,000 conversations with a total of 83,148 utterances, covering rich multimodal interactions and natural dialogues. The data is automatically synthesized through a multi-agent framework, leveraging the power of multimodal large language models (MLLMs) to innovatively generate user personas from real-world scenarios, rather than relying on manually designed resources or historical data. The dataset is primarily applied in multimodal conversational recommendation systems, aiming to address the limitations of traditional text-based recommendation systems in simulating real-world shopping behaviors, especially in vision-driven fields such as clothing recommendation, by providing more comprehensive multi-sensory decision-making support.

提供机构：

东北大学计算机科学与工程学院

创建时间：

2024-12-24

搜集汇总

数据集介绍

构建方式

MUSE数据集的构建采用了多智能体框架，结合了多模态大语言模型（MLLMs）的强大能力。首先，通过从真实场景中提取用户画像，而非依赖手动设计或历史数据，确保了数据的高度可扩展性。其次，利用多模态信息进行对话模拟和优化，生成了包含丰富元素和自然对话的7,000次对话，共计83,148条话语。数据生成过程分为三个模块：场景驱动的用户画像生成器、模拟对话生成器和对话优化器，确保了对话的多样性和质量。

特点

MUSE数据集的特点在于其多模态性和场景驱动的用户画像。每个对话不仅包含文本信息，还融入了视觉元素，模拟了真实世界中的多感官决策过程。此外，用户画像基于真实场景生成，能够更好地反映用户的即时需求，而非仅仅依赖历史数据。数据集中的对话具有高度的流畅性、多样性和深度，能够有效支持多模态对话推荐系统的研究和开发。

使用方法

MUSE数据集的使用方法主要包括多模态对话推荐系统的训练和评估。研究人员可以利用该数据集进行模型微调，特别是在零样本和微调配置下，验证模型在推荐和响应生成方面的表现。数据集中的多模态信息可以用于增强模型的视觉理解和文本生成能力，从而提升推荐系统的个性化效果。此外，MUSE还提供了丰富的对话元素，可用于评估对话的自然性、逻辑一致性和信息丰富度，为多模态对话推荐系统的研究提供了可靠的基准。

背景与挑战

背景概述

MUSE数据集由东北大学计算机科学与工程学院的研究团队于2024年提出，旨在解决现有对话推荐系统主要依赖文本模态的局限性。该数据集专注于多模态对话推荐，涵盖了服装、鞋类和珠宝领域的7,000次对话，包含83,148条话语。MUSE通过多模态大语言模型（MLLMs）驱动的多代理框架自动生成数据，创新性地从真实场景中提取用户画像，而非依赖人工设计或历史数据，从而提升了数据扩展性。MUSE的推出填补了多模态对话推荐领域的数据空白，为相关研究提供了高质量、多样化的对话数据，推动了多模态推荐系统的发展。

当前挑战

MUSE数据集在构建和应用过程中面临多重挑战。首先，多模态对话推荐系统需要处理图像和文本信息的融合，如何有效整合视觉特征与用户需求是一个关键难题。其次，数据生成过程中，确保对话的自然性和逻辑一致性具有挑战性，尤其是在多模态信息交互的场景下。此外，MUSE依赖于多模态大语言模型生成数据，模型的性能直接影响数据质量，而模型的局限性可能导致对话的多样性和深度不足。最后，如何在保护用户隐私的前提下，扩展数据集以覆盖更多用户和物品，也是MUSE面临的重要挑战。

常用场景

经典使用场景

MUSE数据集在对话推荐系统（CR）领域中被广泛用于多模态交互的研究。其经典使用场景包括模拟用户在服装、鞋类和珠宝等领域的购物对话，涵盖了从用户需求表达、产品推荐到最终决策的全过程。通过结合视觉和文本信息，MUSE能够更真实地模拟现实世界中的购物行为，为研究者提供了一个丰富的多模态对话环境。

实际应用

MUSE数据集的实际应用场景主要集中在电子商务平台的智能客服和个性化推荐系统中。通过多模态对话，系统能够更准确地理解用户需求，提供更具针对性的产品推荐。例如，在服装购物场景中，用户可以通过上传图片表达需求，系统则结合视觉和文本信息推荐合适的搭配，提升用户体验和购物效率。

衍生相关工作

MUSE数据集的推出催生了一系列相关研究工作，尤其是在多模态对话推荐系统的优化和扩展方面。基于MUSE的研究不仅推动了多模态大语言模型（MLLMs）在推荐任务中的应用，还促进了对话生成、用户画像建模和场景驱动的推荐算法的创新。此外，MUSE的成功也激励了其他领域（如食品、家具等）的多模态对话数据集的开发，进一步推动了多模态推荐系统的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集