AlanaAI/EVUD
收藏Hugging Face2024-07-04 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/AlanaAI/EVUD
下载链接
链接失效反馈官方服务:
资源简介:
Egocentric Video Understanding Dataset (EVUD) 是一个用于训练视觉语言模型(VLMs)在自我中心视频上进行视频描述和问答任务的指令调优数据集。该数据集由Alana AI团队创建,旨在解决当前视觉语言模型主要关注第三人称视角视频而忽略自我中心感知体验丰富性的问题。数据集包含来自多个数据源的数据,如Ego4D、EgoClip、VSR和HM3D,并且主要用于研究目的,不适用于安全关键环境中的实际部署。
The Egocentric Video Understanding Dataset (EVUD) is an instruction-tuning dataset designed for training Vision-Language Models (VLMs) on video captioning and question answering tasks specific to egocentric videos. Created by the Alana AI team, this dataset addresses the gap in current VLMs, which primarily focus on third-person view videos and neglect the richness of egocentric perceptual experience. The dataset incorporates data from multiple sources, including Ego4D, EgoClip, VSR, and HM3D, and is intended for research purposes only, not for real-world deployment in safety-critical environments.
提供机构:
AlanaAI
原始信息汇总
Egocentric Video Understanding Dataset (EVUD)
概述
- 名称: Egocentric Video Understanding Dataset (EVUD)
- 任务类别: 视觉问答 (Visual-Question-Answering)
- 语言: 英语
- 标签: 视觉语言模型 (VLM), 具身AI (Embodied AI), 第一人称视角 (Egocentric)
- 数据集大小: 10K<n<100K
- 许可证: MIT License
数据集详情
- 描述: 用于训练视觉语言模型 (VLMs) 在第一人称视角视频上的视频字幕和问答任务。
- 来源:
- Ego4D: https://ego4d-data.org/
- EgoClip: https://arxiv.org/abs/2206.01670
- VSR: https://github.com/cambridgeltl/visual-spatial-reasoning/
- HM3D: https://aihabitat.org/datasets/hm3d/
- 结构: 数据集包含遵循LLaVa JSON格式的JSON文件。
- 用途: 用于创建理解家庭环境的个人助手。
- 限制: 仅用于研究目的,不适用于安全关键环境的实际部署。
数据集创建
- 动机: 首个用于第一人称视角视频理解指令调优的数据集,结合了视频字幕和视频问答任务。
- 数据处理: 详细信息请参见官方仓库。
- 隐私: 大部分视频数据来自Ego4D,遵循特定的匿名化程序。
偏见、风险和限制
- 偏见: 可能反映原始数据源的偏见。
- 风险: 不包含安全意识对齐,不适用于实际应用。
- 建议:
- 扩展数据以减轻可能的偏见。
- 包含安全意识训练数据。
引用
-
BibTeX:
@article{suglia2024alanavlm, title={AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding}, author={Suglia, Alessandro and Greco, Claudio and Baker, Katie and Part, Jose L and Papaionnou, Ioannis and Eshghi, Arash and Konstas, Ioannis and Lemon, Oliver}, journal={arXiv preprint arXiv:2406.13807}, year={2024} }
-
APA: Suglia, A., Greco, C., Baker, K., Part, J. L., Papaionnou, I., Eshghi, A., ... & Lemon, O. (2024). AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding. arXiv preprint arXiv:2406.13807.
搜集汇总
背景与挑战
背景概述
AlanaAI/EVUD是一个指令调优数据集,专门用于训练视觉语言模型在自我中心视频中执行视频描述和问答任务,以弥补现有模型在第三人称视角上的不足。它整合了多个数据源如Ego4D和HM3D,并强调其研究性质,不适用于安全关键部署。
以上内容由遇见数据集搜集并总结生成



