SIMMC 2.0

Name: SIMMC 2.0
Creator: Facebook Reality Labs & Facebook AI
Published: 2021-10-21 07:42:35
License: 暂无描述

arXiv2021-10-21 更新2024-06-21 收录

下载链接：

https://github.com/facebookresearch/simmc2

下载链接

链接失效反馈

官方服务：

资源简介：

SIMMC 2.0数据集由Facebook Reality Labs与Facebook AI联合创建，专注于沉浸式多模态对话，特别是在购物领域的应用。该数据集包含11,244条面向任务的用户-助手对话（共117,236条语句），这些对话基于沉浸式和照片级真实感的场景。数据集的创建过程采用两阶段方法：首先使用多模态对话模拟器生成对话流程，然后通过人工改写生成多样化的指代表达。SIMMC 2.0旨在解决真实世界中多模态输入处理和多模态动作执行的挑战，为研究任务导向对话提供了新的基准。

The SIMMC 2.0 dataset was jointly created by Facebook Reality Labs and Facebook AI, focusing on immersive multimodal conversations, particularly applications in the shopping domain. This dataset contains 11,244 task-oriented user-assistant dialogues, totaling 117,236 utterances, which are based on immersive and photorealistic scenarios. The dataset was developed using a two-stage approach: first, a multimodal dialogue simulator was used to generate dialogue flows, followed by manual paraphrasing to generate diverse referring expressions. SIMMC 2.0 aims to address the challenges of real-world multimodal input processing and multimodal action execution, providing a new benchmark for research on task-oriented dialogues.

提供机构：

Facebook Reality Labs & Facebook AI

创建时间：

2021-04-18

搜集汇总

数据集介绍

构建方式

在沉浸式多模态对话研究领域，SIMMC 2.0数据集的构建采用了一种创新的两阶段流水线方法。首先，通过多模态对话模拟器生成多样化的对话流程，该模拟器基于程序化重排的虚拟现实场景，确保场景的丰富性与真实性。随后，人工对模拟生成的语句进行改写，以保留关键信息的同时引入自然语言表达的多样性，从而高效地收集了11,244个任务导向对话，共计117,236条语句。

特点

SIMMC 2.0数据集的核心特点在于其沉浸式多模态上下文，该上下文基于照片级真实的虚拟现实场景，模拟了时尚和家具购物环境。数据集平均每个对话涉及19.7个对象，支持复杂的指代消解和歧义消除场景，同时包含跨多个视角的对话流，增强了现实世界应用的挑战性。此外，数据集提供了精细的对话标注，包括意图、槽位及对象引用，为多模态任务导向对话系统的研究奠定了坚实基础。

使用方法

SIMMC 2.0数据集主要用于评估多模态任务导向对话系统的性能，涵盖了四个基准任务：多模态歧义消除、多模态指代消解、多模态对话状态跟踪以及响应生成。研究人员可利用数据集提供的对话历史、多模态场景及标注信息，训练和测试模型在这些任务上的表现。通过标准化的评估指标，如准确率、F1分数和BLEU分数，该数据集促进了多模态对话系统在复杂现实场景中的进步与创新。

背景与挑战

背景概述

SIMMC 2.0数据集由Facebook Reality Labs与Facebook AI的研究团队于2021年推出，旨在推动面向任务的沉浸式多模态对话系统的发展。该数据集聚焦于购物场景，包含约1.1万段对话与11.7万条语句，其核心研究问题在于如何使智能助手在共享的多模态环境中理解用户的对话上下文与视觉感知信息，从而提供更自然的交互体验。相较于先前版本，SIMMC 2.0通过引入照片级真实的虚拟现实场景，显著提升了多模态上下文的复杂性与真实性，为多模态对话理解、指代消解及状态跟踪等任务设立了新的基准，对推动具身智能与对话AI的融合研究产生了深远影响。

当前挑战

SIMMC 2.0数据集致力于解决多模态任务导向对话中的核心挑战，尤其在复杂视觉语境下的指代消解与对话状态跟踪方面。具体而言，数据集中包含大量基于视觉空间关系（如‘后方的那件衬衫’）或对话历史（如‘我之前提到的那件’）的指代表达，要求模型同时解析语言与视觉信息以准确关联对象。在构建过程中，研究团队面临生成多样化且逼真多模态场景的挑战，需通过程序化重排三维资产并控制语义一致性来避免场景失真；同时，采用两阶段流水线（模拟对话流与人工复述）以平衡数据规模与语言自然度，但如何确保生成对话的丰富性及与真实用户表达的分布对齐仍具难度。

常用场景

经典使用场景

在沉浸式多模态对话研究领域，SIMMC 2.0数据集为任务导向的对话系统提供了经典的应用场景。该数据集模拟了用户在时尚或家具购物环境中与虚拟助手进行交互的情境，其中对话不仅基于自然语言，还紧密关联于共观察到的逼真虚拟现实场景。研究者利用这一数据集训练和评估模型在多模态上下文中的理解能力，例如通过解析用户对场景中特定对象的指代，实现精准的推荐或信息查询。这种场景设计使得对话系统能够处理复杂的视觉与语言交织的交互，为构建更智能的助手奠定基础。

解决学术问题

SIMMC 2.0数据集致力于解决多模态任务导向对话系统中的核心学术问题，包括多模态指代消解、多模态对话状态跟踪以及响应生成等挑战。传统对话数据集往往缺乏真实的视觉上下文，导致模型难以处理用户基于场景的指代表达。该数据集通过提供丰富的光照真实场景和密集的对象布局，促使模型学习在嘈杂环境中识别部分遮挡或模糊提及的对象，从而提升对话系统的鲁棒性和准确性。其意义在于推动了多模态人工智能的发展，为实际应用中的沉浸式交互提供了理论支撑。

衍生相关工作

基于SIMMC 2.0数据集，学术界衍生了一系列经典研究工作，这些工作主要集中在多模态对话模型的优化与扩展上。例如，研究者开发了基于Transformer的端到端模型，如GPT-2的变体，用于联合处理多模态指代消解和对话状态跟踪任务。其他工作则探索了多任务学习框架，将视觉特征与对话历史深度融合，以提升模型在复杂场景中的表现。这些衍生研究不仅推动了数据集的基准性能提升，还促进了多模态对话系统在指代解析、视觉推理等子任务上的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集