MM-Conv

Name: MM-Conv
Creator: 瑞典皇家理工学院
Published: 2024-10-01 05:51:30
License: 暂无描述

arXiv2024-10-01 更新2024-10-04 收录

下载链接：

https://mm-conv.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

MM-Conv是一个用于虚拟人类的多模态对话数据集，由瑞典皇家理工学院创建。该数据集通过VR头盔在AI2-THOR物理模拟器中记录了参与者之间的对话，包含6.7小时的同步语音、动作捕捉、面部表情和注视数据。数据集的创建过程结合了虚拟现实和动作捕捉技术，确保了数据的丰富性和结构化。该数据集主要用于增强手势生成模型在3D场景中的理解和开发，旨在解决在任务导向场景中如何更自然地生成手势和理解空间信息的问题。

MM-Conv is a multimodal dialogue dataset for virtual humans, created by the Royal Institute of Technology (KTH) in Sweden. This dataset records dialogues between participants via VR headsets within the AI2-THOR physical simulator, and contains 6.7 hours of synchronized speech, motion capture, facial expression, and gaze data. Its development integrates virtual reality and motion capture technologies to ensure the richness and structured format of the collected data. This dataset is primarily used to advance the understanding and development of gesture generation models in 3D scenarios, aiming to address the challenge of generating more natural gestures and comprehending spatial information in task-oriented scenes.

提供机构：

瑞典皇家理工学院

创建时间：

2024-10-01

原始信息汇总

MM-Conv: A Multi-Modal Conversational Dataset for Virtual Humans

概述

MM-Conv 是一个用于虚拟人类的多模态对话数据集，由 Anna Deichler、Jim ORegan 和 Jonas Beskow 在 KTH 皇家理工学院开发，并在 ECCV 多模态代理研讨会上展示。

作者

Anna Deichler
Jim ORegan
Jonas Beskow

机构

KTH 皇家理工学院

研讨会

ECCV 多模态代理研讨会

摘要

本文介绍了一个使用 VR 头戴设备在物理模拟器（AI2-THOR）中记录参与者之间对话的新数据集。主要目标是扩展协同语音手势生成领域，通过在指涉性设置中加入丰富的上下文信息。参与者参与了各种基于指涉性沟通任务的对话场景。数据集提供了丰富的多模态记录，如动作捕捉、语音、注视和场景图。该综合数据集旨在通过提供多样化和上下文丰富的数据来增强对 3D 场景中手势生成模型的理解和开发。

背景

指涉性沟通是一种特定的沟通模式，通常发生在情境对话中。这包括识别、描述或与对象、位置或人相关的指令。这种形式的沟通连接了周围环境的感知和概念理解。它依赖于多模态表达，包括空间语言和非语言行为，如注视和指向手势。在讨论空间上下文时，指向或手势成为空间语言的重要补充，提供了一种更直接且通常更清晰的方法来指定位置或引导注意力到特定对象或区域。为了使代理能够有效地理解和参与情境对话中的指涉性沟通，它们需要能够解释和生成口头空间参考和非语言提示，如指向手势和注视。这种双重能力允许更细致和高效的交换信息。

相关链接

搜集汇总

数据集介绍

构建方式

MM-Conv数据集通过结合虚拟现实（VR）技术和动作捕捉技术，在AI2-THOR物理模拟器中记录了参与者之间的对话。实验中，参与者在VR环境中进行各种基于指称交流任务的对话场景，记录了包括动作捕捉、语音、注视和场景图在内的多模态数据。这些数据通过VR头戴设备和外部动作捕捉系统同步记录，确保了数据的时空一致性。此外，场景图以JSON格式进行标注，便于后续分析和模型训练。

特点

MM-Conv数据集的显著特点在于其多模态数据的丰富性和上下文相关性。数据集不仅包含了详细的全身动作捕捉数据，还包括语音、注视和面部表情等多模态信息，这些数据在时间上高度同步，为研究指称交流中的非语言行为提供了宝贵的资源。此外，数据集中的场景图提供了环境中的物体布局信息，增强了数据的环境感知能力。

使用方法

MM-Conv数据集适用于训练和测试在特定环境中生成手势的模型。研究人员可以利用数据集中的多模态数据，结合语音和动作捕捉信息，开发能够理解和生成空间语言及非语言手势的模型。数据集的场景图信息可以用于增强模型的环境感知能力，使其在处理任务导向的对话时更加自然和有效。此外，数据集的标注和同步机制为模型的训练提供了高质量的数据基础。

背景与挑战

背景概述

MM-Conv数据集由瑞典斯德哥尔摩皇家理工学院的Anna Deichler、Jim O’Regan和Jonas Beskow团队于2024年创建，旨在通过虚拟现实（VR）技术记录参与者在物理模拟器（AI2-THOR）中的对话，以扩展协同语音手势生成领域。该数据集的核心研究问题在于如何在参考性设置中整合丰富的上下文信息，以提升手势生成模型的理解和生成能力。通过捕捉6.7小时的同步语音、动作、面部表情和注视数据，以及场景图，MM-Conv数据集为3D场景中的手势生成模型提供了多样且上下文丰富的数据，对虚拟人领域的研究具有重要推动作用。

当前挑战

MM-Conv数据集在构建过程中面临多项挑战。首先，如何在虚拟现实环境中准确捕捉和同步多模态数据（如动作捕捉、语音、注视和面部表情）是一个技术难题。其次，数据集需解决协同语音手势生成在孤立情境中的局限性，确保手势生成模型在复杂场景中的适应性和自然性。此外，数据集的注释和处理过程复杂，特别是音频转录和时间码同步，需要精细的技术处理和校准。这些挑战不仅影响了数据集的质量，也对后续研究提出了更高的技术要求。

常用场景

经典使用场景

MM-Conv数据集的经典使用场景主要集中在多模态对话系统中，特别是在虚拟人类的手势生成研究领域。该数据集通过捕捉参与者在虚拟现实环境中的对话，提供了丰富的多模态数据，包括语音、动作捕捉、面部表情和注视数据。这些数据被广泛用于训练和测试手势生成模型，特别是在需要结合空间语言和非语言行为（如指向手势和注视）的情景中。通过这些数据，研究人员能够开发出更加自然和上下文感知的虚拟人类手势生成系统。

实际应用

MM-Conv数据集在实际应用中具有广泛的前景，特别是在虚拟助手、教育培训和娱乐产业中。通过利用该数据集训练的手势生成模型，虚拟助手能够更加自然地与用户进行互动，提升用户体验。在教育培训领域，虚拟教师可以利用这些手势来增强教学效果。此外，在娱乐产业中，虚拟角色可以通过这些手势来提升表演的真实感和互动性，从而增强观众的沉浸感。

衍生相关工作

MM-Conv数据集的发布激发了大量相关研究工作，特别是在多模态对话系统和手势生成领域。例如，基于该数据集的研究已经开发出多种扩散模型，如Augmented Control和TESMO，这些模型通过结合空间控制信号，显著提升了场景感知的手势生成能力。此外，该数据集还促进了人机交互和虚拟现实领域的跨学科研究，推动了虚拟人类在复杂情境中的表现力和互动性的进一步提升。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集