MGL_VN_2024

github2024-05-08 更新2024-05-31 收录

下载链接：

https://github.com/zhoukang12321/MGL_VN_2024

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于视觉导航的多模态图学习与动作增强记忆研究，包含了场景中的ResNet特征、元数据和网络导航图等。

This dataset is designed for research on multimodal graph learning and action-augmented memory in visual navigation. It includes ResNet features, metadata, and network navigation graphs within the scenes.

创建时间：

2023-12-08

原始信息汇总

数据集概述

数据集内容

thor_offline_data: 包含AI2-THOR场景中每个房间的所有可能位置的ResNet特征，以及场景的元数据和导航网络图。
thor_glove: 包含导航目标的GloVe嵌入。
gcn: 包含用于Scene Priors中图卷积网络(GCN)的数据，包括邻接矩阵。
test_val_split: 包含测试和验证集的起始位置和场景信息。

数据集扩展

若需访问RGB图像，可替换thor_offline_data为thor_offline_data_with_images，并通过命令行参数--images_file_name images.hdf5运行模型。

模型评估

使用预训练模型

SAVN: bash python main.py --eval --test_or_val test --episode_type TestValEpisode --load_model pretrained_models/savn_pretrained.dat --model SAVN --results_json savn_test.json cat savn_test.json
Scene Priors: bash python main.py --eval --test_or_val test --episode_type TestValEpisode --load_model pretrained_models/gcn_pretrained.dat --model GCN --glove_dir ./data/gcn --results_json scene_priors_test.json cat scene_priors_test.json
Non-Adaptive A3C: bash python main.py --eval --test_or_val test --episode_type TestValEpisode --load_model pretrained_models/nonadaptivea3c_pretrained.dat --results_json nonadaptivea3c_test.json cat nonadaptivea3c_test.json

训练模型

SAVN: bash python main.py --title savn_train --model SAVN --gpu-ids 0 1 --workers 12
Non-Adaptive A3C: bash python main.py --title nonadaptivea3c_train --gpu-ids 0 1 --workers 12

评估自训练模型

SAVN: bash python full_eval.py --title savn --model SAVN --results_json savn_results.json --gpu-ids 0 1 cat savn_results.json
Non-Adaptive A3C: bash python full_eval.py --title nonadaptivea3c --results_json nonadaptivea3c_results.json --gpu-ids 0 1 cat nonadaptivea3c_results.json

随机代理评估

Random Agent: bash python main.py --eval --test_or_val test --episode_type TestValEpisode --title random_test --agent_type RandomNavigationAgent --results_json random_results.json cat random_results.json

搜集汇总

数据集介绍

构建方式

MGL_VN_2024数据集的构建基于多模态图学习与视觉导航的深度融合。该数据集通过整合AI2-THOR场景中的ResNet特征、元数据以及NetworkX图结构，构建了一个全面的导航环境模型。此外，数据集还包含了GloVe嵌入，用于导航目标的语义表示，以及图卷积网络所需的邻接矩阵，进一步增强了场景先验信息的表达能力。

使用方法

使用MGL_VN_2024数据集时，用户需先克隆GitHub仓库并安装相关依赖包。数据集包含预训练模型和数据文件，用户可通过解压缩获取。模型评估可通过运行提供的Python脚本实现，支持GPU加速以提高效率。用户还可根据需求训练自定义模型，并通过指定参数进行模型评估，生成结果文件以供分析。

背景与挑战

背景概述

MGL_VN_2024数据集是由一支专注于多模态图学习与视觉导航的研究团队创建的，旨在解决视觉导航中的复杂问题。该数据集的核心研究问题是如何通过多模态融合和图卷积网络（GCN）来提升视觉导航任务中的记忆与动作执行能力。研究团队通过整合DETR和VTNet的预训练模型，并结合GAT网络进行多模态融合，进一步构建了类似于Visual Genome的场景先验数据集。该数据集的发布不仅为视觉导航领域的研究提供了新的实验平台，还为多模态学习和图神经网络的应用提供了宝贵的资源。

当前挑战

MGL_VN_2024数据集在构建过程中面临了多重挑战。首先，多模态数据的融合需要解决不同模态数据之间的异构性问题，确保信息的高效整合。其次，图卷积网络的应用在处理大规模场景数据时，计算复杂度较高，如何优化模型性能是一个重要挑战。此外，视觉导航任务中的记忆与动作执行需要精确的场景理解和路径规划，这对模型的推理能力和实时性提出了高要求。最后，数据集的构建还需考虑如何有效地标注和组织大规模的场景数据，以确保数据的质量和可用性。

常用场景

经典使用场景

MGL_VN_2024数据集在视觉导航领域展现了其经典应用场景，主要用于训练和评估多模态图学习模型。该数据集整合了ResNet特征、GloVe嵌入以及图卷积网络（GCN）数据，为模型提供了丰富的视觉和语义信息。通过这些数据，研究者可以构建和优化如SAVN、Scene Priors等模型，以实现更精确的导航路径规划和场景理解。

解决学术问题

MGL_VN_2024数据集解决了视觉导航领域中多模态信息融合与图结构学习的学术难题。通过提供包含ResNet特征、GloVe嵌入和GCN数据的复杂场景，该数据集使得研究者能够探索如何有效整合视觉、语义和结构信息，从而提升导航系统的准确性和鲁棒性。这一研究不仅推动了多模态学习的发展，也为智能导航系统的实际应用奠定了理论基础。

实际应用

在实际应用中，MGL_VN_2024数据集为智能机器人和自动驾驶系统提供了关键支持。通过训练基于该数据集的模型，系统能够在复杂环境中进行高效导航，如在仓库管理、家庭服务机器人和无人驾驶车辆中。这些应用场景要求系统能够准确理解环境并做出实时决策，而MGL_VN_2024数据集正是实现这一目标的重要工具。

数据集最近研究