five

MMDL: Multimodal Dataset of Daily Life, MMQADL: Multimodal Question Answering Dataset of Daily Life|具身AI数据集|多模态数据集数据集

收藏
arXiv2024-08-21 更新2024-08-23 收录
具身AI
多模态数据集
下载链接:
https://github.com/KGRC4SI/DataSet
下载链接
链接失效反馈
资源简介:
MMDL和MMQADL是由日本国立先进工业科学技术研究所创建的多模态数据集,旨在支持具身AI的发展。MMDL包含3,530个模拟视频,每个视频展示约30秒至1分钟的家庭日常活动,通过3D模拟器生成并详细标注。MMQADL则是一个问答数据集,用于评估机器人对日常生活的理解能力,包含多种类型的问题和答案。这些数据集通过标准化的注释和详细的描述,为具身AI在理解人类行为和家庭环境方面提供了重要的资源。
提供机构:
日本国立先进工业科学技术研究所
创建时间:
2024-08-21
原始信息汇总

数据集概述

数据集简介

  • 名称:Dataset for Knowledge Graph Reasoning Challenge for Social Issue
  • 描述:该数据集包含在VirtualHome中模拟的各种日常行为视频数据,并将其转换为知识图谱,提供关于“谁”执行了“动作”,涉及了“什么”对象,以及对象的“状态”或“位置”的信息。

数据集组成

  • 视频数据

    • 格式:mp4
    • 数量:706个动作场景,共3560个视频
    • 类型:角色后视图、室内摄像头切换视图、固定摄像头视图
    • 特点:视频中缓慢移动的角色模拟老年人动作
  • 场景图谱

    • 格式:Action Genome
  • 知识图谱

    • 格式:RDF
    • 数量:709个知识图谱,包含模式和位置补充信息
    • 可用性:SPARQL端点和查询示例
  • 脚本数据

    • 格式:txt
    • 用途:用于生成视频和知识图谱
  • 问答数据

    • 格式:JSON
    • 基于20%部分缺失数据

知识图谱解释

  • 本体规范:详细描述了所有类、实例和属性,参考文档:vh2kg_ontology.html

  • 模式图模式图

  • 前缀

    • :: http://kgrc4si.home.kg/virtualhome2kg/ontology/
    • ho:: http://www.owl-ontologies.com/VirtualHome.owl#
    • time:: http://www.w3.org/2006/time#
    • x3do: https://www.web3d.org/specifications/X3dOntology4.0#
  • 代表性类

    • ho:Activity: 家庭日常活动
    • :Event: 构成活动的较小事件
    • :Action: 在事件中执行的人类动作
    • :Object: 家庭中的各种对象
    • :Situation: 特定时刻的家庭状态
    • :State: 特定对象在特定时刻的状态
    • :StateType: 对象状态的类型
    • :Attribute: 对象的属性
    • :Shape: 对象的形状和位置
    • time:Duration: 动作的持续时间
  • 代表性属性

    • :activity: 关联角色和活动
    • :action: 关联事件和动作
    • :eventNumber: 事件的顺序
    • :situationBeforeEvent: 事件前的家庭状态
    • :situationAfterEvent: 事件后的家庭状态
    • :mainObject: 事件的主要对象
    • :targetObject: 事件的目标对象
    • time:hasDuration: 事件的持续时间
    • :isStateOf: 关联对象和其状态
    • :state: 关联状态和其值
    • :affords: 关联对象和动作
    • :attribute: 关联对象和属性
    • :partOf: 关联状态和瞬间情况
    • :bbox: 关联状态和形状
    • :nextActivity: 关联两个活动
    • :nextEvent: 关联两个事件
    • :nextSituation: 关联两个情况
    • :nextState: 关联对象的两个状态
    • :between: 关联门和房间
    • :close: 关联近距离对象
    • :facing: 关联可见对象
    • :holds_lh: 关联左手的对象
    • :holds_rh: 关联右手的对象
    • :inside: 关联内部对象
    • :on: 关联上方对象

如何使用知识图谱

示例查询

AI搜集汇总
数据集介绍
main_image_url
构建方式
MMDL(Multimodal Dataset of Daily Life)数据集的构建基于3D模拟器VirtualHome-AIST,通过生成人工视频数据并辅以标准化注释,旨在支持具身智能体的开发。该数据集包含3530个视频片段,每个片段时长约30秒至1分钟,展示了706个不同场景中的行为片段。视频中的角色行为、约400个物体的3D坐标以及家电状态等均通过VirtualHome2KG进行注释,确保了数据的精确性和一致性。此外,2D注释采用与Action Genome相同的场景图格式,进一步增强了数据的可用性。
使用方法
MMDL数据集的使用方法主要围绕具身智能体的行为理解和环境感知展开。研究者可以通过分析视频片段中的角色行为、物体位置及状态变化,训练和评估智能体在家庭环境中的行为预测和决策能力。数据集提供的标准化注释和场景图格式使得研究者能够轻松提取多模态特征,并结合机器学习模型进行任务训练。此外,数据集还可用于生成式AI模型的训练,如VideoLLaVa和Gemini 1.5 Pro Vision,以评估其对人类行为和环境的理解能力。
背景与挑战
背景概述
MMDL(Multimodal Dataset of Daily Life)和MMQADL(Multimodal Question Answering Dataset of Daily Life)是由日本富士通有限公司和国立先进工业科学技术研究所(AIST)的研究团队于2024年共同创建的多模态数据集。该数据集旨在通过3D模拟器生成的人工视频数据,推动具身智能(Embodied AI)的发展,特别是帮助机器人理解家庭环境中的动态时空行为。数据集的核心研究问题集中在如何通过标准化注释和多模态数据(如视频、自然语言和问答)来提升AI对人类日常行为的理解能力。MMDL和MMQADL的创建基于VirtualHome-AIST模拟器,并结合了PrimitiveActionOntology和HomeOntology等标准化词汇,为具身智能的研究提供了高质量的数据支持。
当前挑战
MMDL和MMQADL在解决具身智能领域问题时面临多重挑战。首先,数据集需要精确捕捉家庭环境中的动态时空行为,这对视频数据的生成和注释提出了极高的要求。其次,问答数据集(MMQADL)的设计需要涵盖多种类型的问题(如位置、动作、对象、时间等),以全面评估AI的理解能力,这对问题的多样性和复杂性提出了挑战。在构建过程中,研究团队还面临如何确保注释的一致性和完整性的问题,特别是在处理大量对象和行为的场景时。此外,如何通过模拟器生成真实且多样化的家庭场景,以及如何将多模态数据(如视频、文本和问答)有效结合,也是构建过程中的重要挑战。
常用场景
经典使用场景
在人工智能领域,尤其是具身智能(Embodied AI)的发展中,MMDL和MMQADL数据集被广泛应用于模拟和理解日常生活中的动态时空行为。通过3D仿真器生成的视频数据,研究者能够训练和评估AI系统在家庭环境中的行为理解能力。这些数据集不仅提供了标准化的注释,还通过问答数据集(MMQADL)进一步衡量AI对日常生活的理解深度。
解决学术问题
MMDL和MMQADL数据集解决了具身智能研究中一个关键问题:如何让AI系统更好地理解和预测人类在家庭环境中的行为。通过提供详细的时空注释和多样化的问答任务,这些数据集帮助研究者评估AI在复杂环境中的推理能力,尤其是在动态时空情境下的表现。这为具身智能的发展提供了重要的基准和工具。
实际应用
在实际应用中,MMDL和MMQADL数据集被用于开发智能家居系统和家庭服务机器人。通过模拟家庭环境中的日常活动,这些数据集帮助训练AI系统识别和预测人类行为,从而提升智能家居设备的自动化水平和服务机器人的交互能力。例如,机器人可以通过这些数据集学习如何在家庭环境中执行任务,如开关电器或协助日常活动。
数据集最近研究
最新研究方向
在具身智能(Embodied AI)领域,MMDL(Multimodal Dataset of Daily Life)和MMQADL(Multimodal Question Answering Dataset of Daily Life)数据集的最新研究方向聚焦于动态时空推理能力的提升。通过3D模拟器生成的标准化注释视频数据,这些数据集为机器人在家庭环境中理解人类行为和环境提供了重要支持。研究热点包括基于多模态数据的问答系统开发,以及如何通过生成式AI模型(如VideoLLaVa和Gemini 1.5 Pro Vision)提升对复杂日常场景的理解能力。这些数据集不仅推动了具身智能在家庭环境中的应用,还为未来智能家居和辅助机器人技术的发展奠定了数据基础。
相关研究论文
  • 1
    Multimodal Datasets and Benchmarks for Reasoning about Dynamic Spatio-Temporality in Everyday Environments日本国立先进工业科学技术研究所 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

DFT dataset for high entropy alloys

我们的DFT数据集涵盖了由八种元素组成的bcc和fcc结构,包括所有可能的2至7元合金系统。该数据集在Zenodo上公开可用,包含初始和最终结构、形成能量、原子磁矩和电荷等属性。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

ERIC (Education Resources Information Center)

ERIC (Education Resources Information Center) 是一个广泛的教育文献数据库,包含超过130万条记录,涵盖从1966年至今的教育研究、政策和实践。数据集内容包括教育相关的期刊文章、书籍、研究报告、会议论文、技术报告、政策文件等。

eric.ed.gov 收录