five

Ego4D & Ego-Exo4D|计算机视觉数据集|机器学习数据集

收藏
github2024-05-22 更新2024-05-31 收录
计算机视觉
机器学习
下载链接:
https://github.com/facebookresearch/Ego4d
下载链接
链接失效反馈
资源简介:
Ego-Exo4D是一个大规模多模态多视角视频数据集(包括3D)和基准挑战,包含至少一个第一人称(egocentric Aria眼镜)和第三人称(exocentric GoPro相机)视角的同步视频。Ego4D是世界上最大的第一人称视频ML数据集和基准套件,包含超过3700小时标注的第一人称视频数据。

Ego-Exo4D is a large-scale multimodal and multiview video dataset (including 3D) and benchmark challenge, featuring synchronized videos from at least one first-person perspective (egocentric Aria glasses) and one third-person perspective (exocentric GoPro cameras). Ego4D, the world's largest first-person video ML dataset and benchmark suite, contains over 3,700 hours of annotated first-person video data.
创建时间:
2021-11-24
原始信息汇总

Ego-Exo4D 数据集概述

Ego4D 数据集概述

  • 版本: V2.1
  • 新增内容: 包含Goal-Step注释和伴随的“分组视频”
  • 视频时长: 超过3700小时的第一人称视频数据
  • 访问: 请参考Start Here页面
  • 下载: 使用Ego4Ds CLI README

数据集功能与工具

  • 下载工具: 分别为Ego-Exo4D和Ego4D提供了专门的命令行工具
  • 视频读取API: 抽象了常见的视频读取库,如TorchAudio和PyAV
  • 特征提取API: 包括对常见模型的轻量级包装,如Omnivore和SlowFast
  • 研究代码: 提供训练模型的研究代码,例如clep

数据集使用教程

  • Notebooks: 提供用于分析和使用数据集的示例/教程
  • Colab Notebooks: 为基准测试提供额外的示例

数据集可视化

  • 可视化工具: 提供可视化引擎和演示笔记本

许可证

AI搜集汇总
数据集介绍
main_image_url
构建方式
Ego4D与Ego-Exo4D数据集的构建基于大规模的多模态多视角视频数据,涵盖了3D视频内容。该数据集通过同步记录参与者在第一人称(egocentric Aria眼镜)和第三人称(exocentric GoPro相机)视角下的视频,确保了数据的全面性和多样性。数据集的构建过程中,不仅收集了大量的视频数据,还进行了详细的标注工作,以支持各种视觉任务的研究和应用。
使用方法
使用Ego4D与Ego-Exo4D数据集时,用户可以通过官方提供的CLI工具进行数据下载,并利用Python模块进行数据处理和特征提取。数据集的使用指南详细介绍了如何访问和下载数据,以及如何利用提供的API和示例代码进行数据分析。此外,数据集还提供了丰富的研究代码和Notebook示例,帮助用户快速上手并进行深入研究。
背景与挑战
背景概述
Ego4D与Ego-Exo4D数据集是由Meta AI研究团队主导创建的,旨在推动第一人称视角(egocentric)和第三人称视角(exocentric)视频数据的机器学习研究。Ego4D作为全球最大的第一人称视频数据集,包含了超过3700小时的标注视频数据,而Ego-Exo4D则进一步扩展了这一概念,整合了多模态、多视角的视频数据,包括3D信息。这两个数据集的创建不仅为视频理解、动作识别等领域的研究提供了丰富的资源,还通过引入新的标注和数据结构,推动了相关技术的进步。
当前挑战
Ego4D与Ego-Exo4D数据集在构建过程中面临了多重挑战。首先,数据集的规模庞大,涉及超过1200小时的视频数据,这要求高效的存储和处理技术。其次,多视角和多模态数据的同步与整合,尤其是第一人称与第三人称视角的协调,增加了数据处理的复杂性。此外,数据集的标注工作也极具挑战,需要确保标注的准确性和一致性。最后,数据集的公开和使用需要严格的许可和访问控制,以保护参与者的隐私和数据安全。
常用场景
经典使用场景
在计算机视觉与人工智能领域,Ego4D与Ego-Exo4D数据集的经典使用场景主要集中在多视角视频分析与理解。通过整合第一人称(egocentric)与第三人称(exocentric)视角的视频数据,研究者能够深入探索人类行为与环境互动的复杂性。例如,这些数据集常用于开发和验证视频动作识别、场景理解以及跨视角行为预测等算法,从而推动智能监控、人机交互及虚拟现实等应用的发展。
解决学术问题
Ego4D与Ego-Exo4D数据集在学术研究中解决了多视角视频数据稀缺的问题,为研究者提供了丰富的多模态数据资源。这些数据集不仅促进了视频理解与分析技术的进步,还为跨视角行为识别、时间同步视频处理等前沿研究提供了坚实的基础。通过这些数据集,研究者能够更准确地模拟和理解人类在不同视角下的行为模式,从而推动相关领域的理论与应用研究。
实际应用
在实际应用中,Ego4D与Ego-Exo4D数据集被广泛应用于智能监控系统、虚拟现实体验优化以及人机交互界面设计等领域。例如,通过分析第一人称视角的视频数据,可以提升虚拟现实中的沉浸感和交互体验;而结合第三人称视角的数据,则有助于开发更智能的监控系统,实现对复杂场景的精准监控与行为预测。这些应用不仅提升了用户体验,还增强了系统的智能化水平。
数据集最近研究
最新研究方向
在视频理解和多模态数据处理领域,Ego4D与Ego-Exo4D数据集的最新研究方向主要集中在多视角视频的时间同步分析、目标导向任务的步骤级注释以及跨模态特征提取。随着Ego-Exo4D V2版本的发布,研究者们正利用其丰富的多视角视频数据,探索更精确的场景理解和行为预测模型。此外,Ego4D V2.1版本引入的Goal-Step注释,为任务导向的视频分析提供了新的维度,推动了视频内容与任务执行步骤的深度关联研究。这些进展不仅提升了视频数据的利用效率,也为智能监控、人机交互等应用场景提供了强有力的技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

ST-EVCDP

这是一个关于公共电动汽车充电桩的时空充电需求预测的实际数据集,涵盖了18,061个公共充电桩的数据,包括坐标、充电器数量、占用情况和价格等信息。数据集用于学术研究,支持区域电动汽车充电需求预测。

github 收录

Eurovision Song Contest Dataset

Eurovision Song Contest数据集是一个免费提供的数据集,包含1735首参赛歌曲的音频特征、元数据、比赛排名和投票数据,这些歌曲参与了从1956年到2023年的Eurovision Song Contest。

github 收录