MMDL: Multimodal Dataset of Daily Life, MMQADL: Multimodal Question Answering Dataset of Daily Life

Name: MMDL: Multimodal Dataset of Daily Life, MMQADL: Multimodal Question Answering Dataset of Daily Life
Creator: 日本国立先进工业科学技术研究所
Published: 2024-08-21 13:27:55
License: 暂无描述

arXiv2024-08-21 更新2024-08-23 收录

下载链接：

https://github.com/KGRC4SI/DataSet

下载链接

金山云加速下载

链接失效反馈

官方服务：

资源简介：

MMDL和MMQADL是由日本国立先进工业科学技术研究所创建的多模态数据集，旨在支持具身AI的发展。MMDL包含3,530个模拟视频，每个视频展示约30秒至1分钟的家庭日常活动，通过3D模拟器生成并详细标注。MMQADL则是一个问答数据集，用于评估机器人对日常生活的理解能力，包含多种类型的问题和答案。这些数据集通过标准化的注释和详细的描述，为具身AI在理解人类行为和家庭环境方面提供了重要的资源。

MMDL and MMQADL are multimodal datasets created by the National Institute of Advanced Industrial Science and Technology (AIST) of Japan, aimed at supporting the development of embodied AI. MMDL contains 3,530 simulated videos, each showcasing approximately 30 seconds to 1 minute of daily household activities. These videos are generated via a 3D simulator and thoroughly annotated. MMQADL, on the other hand, is a question-answering dataset used to evaluate robots' comprehension of daily life, encompassing various types of questions and answers. These datasets provide critical resources for embodied AI in understanding human behaviors and home environments through standardized annotations and detailed descriptions.

提供机构：

日本国立先进工业科学技术研究所

创建时间：

2024-08-21

原始信息汇总

数据集概述

数据集简介

名称：Dataset for Knowledge Graph Reasoning Challenge for Social Issue
描述：该数据集包含在VirtualHome中模拟的各种日常行为视频数据，并将其转换为知识图谱，提供关于“谁”执行了“动作”，涉及了“什么”对象，以及对象的“状态”或“位置”的信息。

数据集组成

视频数据：
- 格式：mp4
- 数量：706个动作场景，共3560个视频
- 类型：角色后视图、室内摄像头切换视图、固定摄像头视图
- 特点：视频中缓慢移动的角色模拟老年人动作
场景图谱：
- 格式：Action Genome
知识图谱：
- 格式：RDF
- 数量：709个知识图谱，包含模式和位置补充信息
- 可用性：SPARQL端点和查询示例
脚本数据：
- 格式：txt
- 用途：用于生成视频和知识图谱
问答数据：
- 格式：JSON
- 基于20%部分缺失数据

知识图谱解释

本体规范：详细描述了所有类、实例和属性，参考文档：vh2kg_ontology.html
模式图：模式图
前缀：
- :: http://kgrc4si.home.kg/virtualhome2kg/ontology/
- ho:: http://www.owl-ontologies.com/VirtualHome.owl#
- time:: http://www.w3.org/2006/time#
- x3do: https://www.web3d.org/specifications/X3dOntology4.0#
代表性类：
- ho:Activity: 家庭日常活动
- :Event: 构成活动的较小事件
- :Action: 在事件中执行的人类动作
- :Object: 家庭中的各种对象
- :Situation: 特定时刻的家庭状态
- :State: 特定对象在特定时刻的状态
- :StateType: 对象状态的类型
- :Attribute: 对象的属性
- :Shape: 对象的形状和位置
- time:Duration: 动作的持续时间
代表性属性：
- :activity: 关联角色和活动
- :action: 关联事件和动作
- :eventNumber: 事件的顺序
- :situationBeforeEvent: 事件前的家庭状态
- :situationAfterEvent: 事件后的家庭状态
- :mainObject: 事件的主要对象
- :targetObject: 事件的目标对象
- time:hasDuration: 事件的持续时间
- :isStateOf: 关联对象和其状态
- :state: 关联状态和其值
- :affords: 关联对象和动作
- :attribute: 关联对象和属性
- :partOf: 关联状态和瞬间情况
- :bbox: 关联状态和形状
- :nextActivity: 关联两个活动
- :nextEvent: 关联两个事件
- :nextSituation: 关联两个情况
- :nextState: 关联对象的两个状态
- :between: 关联门和房间
- :close: 关联近距离对象
- :facing: 关联可见对象
- :holds_lh: 关联左手的对象
- :holds_rh: 关联右手的对象
- :inside: 关联内部对象
- :on: 关联上方对象

如何使用知识图谱

格式：RDF
存储：三元存储
查询语言：SPARQL
端点：SPARQL端点
镜像：Kozaki实验室镜像

示例查询

获取活动列表： sparql PREFIX ex: http://kgrc4si.home.kg/virtualhome2kg/instance/ PREFIX : http://kgrc4si.home.kg/virtualhome2kg/ontology/ select DISTINCT * where { ?activity :virtualHome ex:scene1 . }

结果
获取“清洁厨房”活动中的事件和动作： sparql PREFIX ex: http://kgrc4si.home.kg/virtualhome2kg/instance/ PREFIX : http://kgrc4si.home.kg/virtualhome2kg/ontology/ select DISTINCT * where { ex:clean_kitchen1_scene1 :hasEvent ?event . ?event :action ?action . }

结果
获取交互对象类型列表： sparql PREFIX : http://kgrc4si.home.kg/virtualhome2kg/ontology/ select distinct ?objectType where { ?event (:mainObject|:targetObject) ?object . ?object a ?objectType . }

结果
获取频繁抓取的对象： sparql PREFIX ho: http://www.owl-ontologies.com/VirtualHome.owl# PREFIX rdfs: http://www.w3.org/2000/01/rdf-schema# PREFIX : http://kgrc4si.home.kg/virtualhome2kg/ontology/ PREFIX dcterms: http://purl.org/dc/terms/ PREFIX ac: http://kgrc4si.home.kg/virtualhome2kg/ontology/action/ select ?name (count(?object) AS ?count) where { ?objectClass rdfs:subClassOf/rdfs:subClassOf :Object . ?object a ?objectClass ; rdfs:label ?label ; dcterms:identifier ?id . ?event (:mainObject|:targetObject) ?object . ?event :action ac:grab . BIND(concat(?label, ?id) AS ?name) } group by ?object ?name order by desc(count(?object))

结果
添加对象高度信息： sparql PREFIX x3do: https://www.web3d.org/specifications/X3dOntology4.0# PREFIX rdf: http://www.w3.org/1999/02/22-rdf-syntax-ns# PREFIX : http://kgrc4si.home.kg/virtualhome2kg/ontology/ PREFIX ex: http://kgrc4si.home.kg/virtualhome2kg/instance/ CONSTRUCT { ?object :height ?height_node . ?height_node rdf:value ?size_y1 ; :unit :meter . } WHERE { ?state1 :isStateOf ?object ; :bbox ?shape1 . ?shape1 x3do:bboxSize ?size1 . ?size1 rdf:rest ?size_y . ?size_y rdf:first ?size_y1 . BIND(REPLACE(STR(?object), STR(ex:) ,"") AS ?object_name) BIND(URI(CONCAT(STR(ex:),"height_", ?object_name)) AS ?height_node) }

结果
获取对象的affordance信息： sparql

请开启推理引擎

PREFIX : http://kgrc4si.home.kg/virtualhome2kg/ontology/ select * where { ?object a :Object . ?object :affords ?ac

搜集汇总

数据集介绍

构建方式

MMDL（Multimodal Dataset of Daily Life）数据集的构建基于3D模拟器VirtualHome-AIST，通过生成人工视频数据并辅以标准化注释，旨在支持具身智能体的开发。该数据集包含3530个视频片段，每个片段时长约30秒至1分钟，展示了706个不同场景中的行为片段。视频中的角色行为、约400个物体的3D坐标以及家电状态等均通过VirtualHome2KG进行注释，确保了数据的精确性和一致性。此外，2D注释采用与Action Genome相同的场景图格式，进一步增强了数据的可用性。

使用方法

MMDL数据集的使用方法主要围绕具身智能体的行为理解和环境感知展开。研究者可以通过分析视频片段中的角色行为、物体位置及状态变化，训练和评估智能体在家庭环境中的行为预测和决策能力。数据集提供的标准化注释和场景图格式使得研究者能够轻松提取多模态特征，并结合机器学习模型进行任务训练。此外，数据集还可用于生成式AI模型的训练，如VideoLLaVa和Gemini 1.5 Pro Vision，以评估其对人类行为和环境的理解能力。

背景与挑战

背景概述

MMDL（Multimodal Dataset of Daily Life）和MMQADL（Multimodal Question Answering Dataset of Daily Life）是由日本富士通有限公司和国立先进工业科学技术研究所（AIST）的研究团队于2024年共同创建的多模态数据集。该数据集旨在通过3D模拟器生成的人工视频数据，推动具身智能（Embodied AI）的发展，特别是帮助机器人理解家庭环境中的动态时空行为。数据集的核心研究问题集中在如何通过标准化注释和多模态数据（如视频、自然语言和问答）来提升AI对人类日常行为的理解能力。MMDL和MMQADL的创建基于VirtualHome-AIST模拟器，并结合了PrimitiveActionOntology和HomeOntology等标准化词汇，为具身智能的研究提供了高质量的数据支持。

当前挑战

MMDL和MMQADL在解决具身智能领域问题时面临多重挑战。首先，数据集需要精确捕捉家庭环境中的动态时空行为，这对视频数据的生成和注释提出了极高的要求。其次，问答数据集（MMQADL）的设计需要涵盖多种类型的问题（如位置、动作、对象、时间等），以全面评估AI的理解能力，这对问题的多样性和复杂性提出了挑战。在构建过程中，研究团队还面临如何确保注释的一致性和完整性的问题，特别是在处理大量对象和行为的场景时。此外，如何通过模拟器生成真实且多样化的家庭场景，以及如何将多模态数据（如视频、文本和问答）有效结合，也是构建过程中的重要挑战。

常用场景

经典使用场景

在人工智能领域，尤其是具身智能（Embodied AI）的发展中，MMDL和MMQADL数据集被广泛应用于模拟和理解日常生活中的动态时空行为。通过3D仿真器生成的视频数据，研究者能够训练和评估AI系统在家庭环境中的行为理解能力。这些数据集不仅提供了标准化的注释，还通过问答数据集（MMQADL）进一步衡量AI对日常生活的理解深度。

解决学术问题

MMDL和MMQADL数据集解决了具身智能研究中一个关键问题：如何让AI系统更好地理解和预测人类在家庭环境中的行为。通过提供详细的时空注释和多样化的问答任务，这些数据集帮助研究者评估AI在复杂环境中的推理能力，尤其是在动态时空情境下的表现。这为具身智能的发展提供了重要的基准和工具。

实际应用

在实际应用中，MMDL和MMQADL数据集被用于开发智能家居系统和家庭服务机器人。通过模拟家庭环境中的日常活动，这些数据集帮助训练AI系统识别和预测人类行为，从而提升智能家居设备的自动化水平和服务机器人的交互能力。例如，机器人可以通过这些数据集学习如何在家庭环境中执行任务，如开关电器或协助日常活动。

数据集最近研究