five

EgoOops|错误检测数据集|第一人称视角视频数据集

收藏
arXiv2024-10-07 更新2024-10-12 收录
错误检测
第一人称视角视频
下载链接:
https://y-haneji.github.io/EgoOops-project-page/
下载链接
链接失效反馈
资源简介:
EgoOops数据集由京都大学创建,包含50个第一人称视角视频,涵盖五个不同的程序性任务领域,包括电路、颜色混合实验、离子反应实验、玩具积木和纸板工艺。数据集总时长为6.8小时,每个视频配有相应的程序性文本。数据集的创建过程包括任务选择、程序性文本准备、视频录制和标注,涵盖视频与文本的对齐、错误标签及其描述。EgoOops旨在解决从第一人称视角视频中检测错误动作的问题,适用于智能档案系统,能够检测工人的错误并提供反馈。
提供机构:
京都大学
创建时间:
2024-10-07
原始信息汇总

EgoOops 数据集概述

数据集描述

EgoOops 是一个视频-语言数据集,记录了包括错误动作在内的程序性活动。该数据集专注于从第一人称视角视频中检测错误动作,并结合程序性文本进行分析。

数据集特点

  • 视频来源: 包含50个第一人称视角视频,涵盖五个程序性领域。
  • 文本信息: 每个视频对应程序性文本,用于描述视频内容。
  • 标注类型: 数据集包含三种类型的标注:
    1. 视频-文本对齐
    2. 错误标签
    3. 错误描述,解释每个片段中的错误

相关链接

作者信息

  • Yuto Haneji<sup>1</sup>
  • Taichi Nishimura<sup>2</sup>
  • Hirotaka Kameko<sup>1</sup>
  • Keisuke Shirai<sup>1</sup>
  • Tomoya Yoshida<sup>1</sup>
  • Keiya Kajimura<sup>1</sup>
  • Koki Yamamoto<sup>1</sup>
  • Taiyu Cui<sup>1</sup>
  • Tomohiro Nishimoto<sup>1</sup>
  • Shinsuke Mori<sup>1</sup>

机构:

  • <sup>1</sup> Kyoto University
  • <sup>2</sup> LY Corporation
AI搜集汇总
数据集介绍
main_image_url
构建方式
EgoOops数据集的构建过程包括四个主要步骤:任务选择、程序文本准备、视频录制和标注。首先,从多样化的领域中选择了五个任务,包括电路、颜色混合实验、离子反应实验、积木搭建和纸板工艺。接着,为每个任务准备了详细的程序文本,并确保其清晰性和准确性。随后,通过头戴式摄像机记录了四名日本研究生执行这些任务的过程,确保了视频的高质量和一致性。最后,对视频和文本进行了对齐标注、错误标签标注以及错误描述标注,以提供详细的数据分析基础。
特点
EgoOops数据集的显著特点在于其多模态数据的整合,包括50个第一人称视角视频和相应的程序文本,涵盖了五个不同的领域。该数据集不仅标注了视频和文本的对齐关系,还详细标注了错误行为及其描述,提供了对实际错误行为的深入分析。此外,数据集中的错误标签和描述模板确保了标注的一致性和可解释性,为研究者提供了丰富的数据资源。
使用方法
EgoOops数据集主要用于视频和文本对齐以及错误行为检测两个任务。首先,通过视频和文本的对齐,模型可以识别出视频中的关键步骤,并将其与程序文本中的步骤进行匹配。其次,基于对齐结果,模型可以进一步检测视频片段中的错误行为,并将其分类为不同的错误类型。研究者可以利用这些标注数据训练和评估模型,以开发能够实时检测和纠正错误行为的智能系统。
背景与挑战
背景概述
EgoOops数据集由京都大学和LY公司共同开发,旨在解决从第一人称视角视频中检测错误动作的问题。该数据集包含了50个第一人称视角视频,涵盖了五个不同的程序性任务领域,并附有相应的程序性文本。EgoOops数据集的核心研究问题是如何结合视频和文本信息,准确地检测和描述错误动作。这一研究对于开发智能档案系统具有重要意义,该系统能够记录工人的活动、检测错误并提供反馈,从而提高工作质量和安全性。
当前挑战
EgoOops数据集面临的挑战主要包括两个方面。首先,错误动作检测需要结合视频和文本信息,而以往的研究主要依赖视频数据,未能充分利用文本信息。其次,错误动作的类型多样,包括使用错误的对象、跳过步骤等,需要细粒度的错误标签和描述来准确分析。此外,数据集的构建过程中也面临了视频录制、文本准备和标注等多方面的技术挑战。
常用场景
经典使用场景
EgoOops数据集的经典使用场景在于通过结合第一视角视频和程序性文本,进行错误动作检测。该数据集通过视频-文本对齐、错误标签和错误描述三种注释,使得模型能够基于视频和文本同时检测错误。这种多模态的输入方式极大地提高了错误检测的准确性,特别是在需要精细操作的领域,如电子电路、化学实验和手工制作等。
实际应用
在实际应用中,EgoOops数据集可用于开发智能监控系统,实时检测工人在执行复杂任务时的错误,并提供即时反馈。例如,在工业装配线上,系统可以通过分析工人的第一视角视频和操作指南,自动识别并纠正错误,从而提高生产效率和产品质量。此外,该数据集还可用于培训新员工,通过模拟错误场景帮助他们快速掌握正确操作方法。
衍生相关工作
基于EgoOops数据集,研究者们开发了多种多模态错误检测模型,如StepFormer++和多模态分类器。这些模型不仅提高了视频-文本对齐的精度,还显著提升了错误动作检测的性能。此外,该数据集还启发了在其他领域的应用研究,如医疗操作监控和家庭服务机器人,推动了智能辅助技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

烟火数据集

烟火数据集是一个专门用于烟火识别和检测任务的数据集,旨在帮助研究人员开发更加精确和高效的烟火识别算法。包含了大量真实场景下的烟火视频数据,具有广泛的应用前景和重要的研究价值。

阿里云天池 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录