EgoCOT Dataset

github2024-04-04 更新2024-05-31 收录

下载链接：

https://github.com/EmbodiedGPT/EgoCOT_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

EgoCOT数据集旨在通过提供大规模的自我中心视频和相应的逐步规划指令来解决自我中心规划的挑战。该数据集还扩展了EgoVQA数据集，专注于自我中心人类-物体交互视频问答任务。

The EgoCOT dataset aims to address the challenge of egocentric planning by providing large-scale egocentric videos and corresponding step-by-step planning instructions. This dataset also extends the EgoVQA dataset, which focuses on egocentric human-object interaction video question answering tasks.

创建时间：

2023-05-25

原始信息汇总

EgoCOT: Embodied Chain-of-Thought Dataset for Vision Language Pre-training

数据集概述

设计目的：解决具身规划中的挑战，提供大规模的具身视频和相应的逐步规划指令。
扩展数据集：包括EgoVQA数据集，专注于具身人机交互视频问答任务。

关键特性

大规模收集：从Ego4D数据集中精选的具身视频，确保场景多样性和广泛性。
逐步语言指令：每段视频配有高质量的机器生成规划指令，经过语义过滤和人工验证。
EgoVQA扩展：专注于具身人机交互视频问答任务，提供更广泛的具身多模态数据。

构建过程

视频选择：从Ego4D数据集中精心挑选具身视频。
机器生成规划指令：使用先进的机器学习技术生成初始规划指令。
语义过滤：应用语义过滤机制提高规划指令质量。
人工验证：通过人工注释者审查和验证每条指令，确保准确性和清晰性。

数据格式

数据样本：每个样本包含视频的八个连续帧的numpy数组、相关标题和具身规划信息。
JSON格式：每个样本以JSON格式存储，包含图像文件名、标题、规划信息和匹配度评分。

数据集使用

用途：仅供研究使用，用于评估和基准测试视频分析、标题生成和具身规划算法。
引用要求：使用数据集的研究者需在出版物中适当引用数据集来源。

搜集汇总

数据集介绍

构建方式

EgoCOT数据集的构建过程经过精心设计，以确保数据的高质量和相关性。首先，从Ego4D数据集中精心挑选了一组以自我为中心的视角视频，这些视频涵盖了广泛的现实场景，捕捉了多样化的具身体验。接着，利用先进的机器学习技术为每个视频生成初步的规划指令，这些指令作为后续过滤和验证步骤的起点。随后，通过基于语义的过滤机制提升规划指令的质量，确保其准确、有意义且与视频内容一致。最后，通过人工注释者审查和验证每条指令，确保其正确性和清晰性，从而形成一个可靠的数据集。

特点

EgoCOT数据集具有显著的特点，首先，它包含从Ego4D数据集中精选的大规模以自我为中心的视角视频，确保了场景的多样性和广泛性。其次，每个视频都配备了高质量的逐步规划指令，这些指令经过机器生成、语义过滤和人工验证，确保了其准确性和清晰性。此外，数据集还扩展了EgoVQA部分，专注于以自我为中心的人-物交互视频问答任务，提供了更广泛的具身多模态数据。

使用方法

EgoCOT数据集主要用于视频分析、字幕生成和具身规划研究。每个数据样本以JSON格式表示，包含视频帧序列、简短的视频描述以及相关的具身规划信息。研究人员和开发者可以利用该数据集评估和基准测试与视频分析、字幕生成和具身规划相关的算法和模型。使用该数据集时，需在出版物或作品中适当引用数据集的来源。

背景与挑战

背景概述

EgoCOT数据集由EmbodiedGPT团队于2023年推出，旨在解决具身规划领域的核心问题。该数据集基于Ego4D数据集构建，包含大量以自我为中心的视频及其对应的逐步规划指令。通过结合机器生成与人工验证的规划指令，EgoCOT为具身任务提供了高质量的多模态数据支持。其扩展数据集EgoVQA进一步聚焦于以自我为中心的人-物交互视频问答任务，推动了具身智能在自然交互与物理世界理解方面的研究进展。EgoCOT的发布为具身规划、视频问答及多模态控制等任务提供了重要的基准资源，对推动具身智能领域的发展具有深远影响。

当前挑战

EgoCOT数据集在解决具身规划问题时面临多重挑战。首先，具身规划任务要求模型能够准确理解视频内容并生成合理的逐步指令，这对数据的多样性与指令的精确性提出了极高要求。其次，数据集构建过程中，如何从海量视频中筛选出具有代表性的场景，并确保机器生成的指令语义准确且符合人类逻辑，是一个复杂的技术难题。此外，人工验证环节虽然提升了数据质量，但也增加了时间与成本开销。最后，如何设计有效的评估指标来衡量视频内容与规划指令的匹配度，仍是当前研究中的一大挑战。这些问题的解决需要跨学科的合作与技术创新。

常用场景

经典使用场景

EgoCOT数据集在视觉语言预训练领域具有广泛的应用，尤其是在具身规划任务中。通过提供大规模的自我中心视角视频及其对应的逐步规划指令，该数据集为研究人员提供了一个丰富的资源，用于开发和评估具身智能体的规划能力。经典的使用场景包括基于视频内容的动作序列生成、任务分解与执行，以及多模态数据的对齐与理解。

解决学术问题

EgoCOT数据集有效解决了具身智能领域中的关键学术问题，例如如何从自我中心视角的视频中提取并生成高质量的规划指令，以及如何实现视频内容与语言描述之间的精确对齐。通过机器生成、语义过滤和人工验证的多重步骤，该数据集确保了规划指令的准确性和清晰性，为具身规划模型的训练与评估提供了可靠的基础。

衍生相关工作

基于EgoCOT数据集，研究人员开发了EmbodiedGPT模型，这是一个端到端的多模态具身基础模型。该模型在具身规划、具身视频问答和具身控制等任务中表现出色，进一步推动了具身智能领域的研究进展。此外，EgoCOT数据集还衍生出了EgoVQA数据集，专注于自我中心视角下的人-物交互视频问答任务，为多模态数据的研究提供了更广泛的应用场景。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集