five

Egocentric Video Understanding Dataset (EVUD)|视频理解数据集|第一人称视角数据集

收藏
github2024-06-21 更新2024-06-22 收录
视频理解
第一人称视角
下载链接:
https://github.com/alanaai/EVUD
下载链接
链接失效反馈
资源简介:
我们介绍了Egocentric Video Understanding Dataset (EVUD),这是一个用于训练视频字幕和问答任务的指令调整数据集,特别针对第一人称视角视频。
创建时间:
2024-06-19
原始信息汇总

Egocentric Video Understanding Dataset (EVUD)

概述

EVUD 是一个用于训练视觉语言模型(VLM)在以自我为中心的视频上进行视频字幕和问答任务的指令调优数据集。

最新动态

  • AlanaVLM 论文已在 arXiv 上发布。
  • 所有为此项目开发的检查点可在 Hugging Face 获取。
  • EVUD 数据集可在 Hugging Face 获取。

数据生成

除了在 HuggingFace 上发布的生成数据外,我们还发布了所有用于重现我们数据生成管道的脚本:

生成的数据遵循 LLaVa JSON 格式

AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建Egocentric Video Understanding Dataset (EVUD)时,研究团队采用了多源数据整合的方法,结合了Ego4D VQA、Ego4D VQA Gemini、EgoClip、VSR和HM3D等多个数据集的资源。这些数据通过特定的生成脚本进行处理,最终以LLaVa JSON格式输出,确保了数据的标准化和一致性。此过程不仅涵盖了视频内容的描述,还包括了基于视频的问题回答任务,从而为训练视觉语言模型(VLM)提供了丰富的素材。
特点
EVUD数据集的显著特点在于其专注于以自我为中心的视频理解任务,特别是在视频字幕生成和问答任务上。该数据集不仅包含了大量的视频数据,还结合了详细的指令调优,使得模型能够更好地理解和处理以自我为中心的视角。此外,EVUD的数据格式遵循LLaVa JSON标准,便于与其他视觉语言模型进行兼容和集成。
使用方法
使用EVUD数据集时,用户首先需要创建并激活一个虚拟环境,然后通过安装requirements.txt文件中的依赖项来配置运行环境。数据集本身可以通过Hugging Face平台获取,同时,所有用于数据生成的脚本也已公开,用户可以自行复现数据生成流程。为了充分利用该数据集,建议用户参考LLaVa JSON格式的文档,确保数据处理的准确性和效率。
背景与挑战
背景概述
Egocentric Video Understanding Dataset (EVUD) 是由AlanaAI团队开发的一个专注于第一人称视角视频理解的数据集。该数据集的创建旨在解决视频字幕生成和问答任务中的挑战,特别是在第一人称视角视频领域。EVUD的发布标志着在视频理解领域的一个重要进展,尤其是在训练视觉语言模型(VLM)方面。通过提供丰富的第一人称视角视频数据,EVUD为研究人员提供了一个强大的工具,以推动视频理解和交互式视频分析的前沿研究。
当前挑战
EVUD在构建过程中面临了多个挑战。首先,第一人称视角视频的数据采集和标注过程复杂,需要高度的专业性和精确性。其次,视频字幕生成和问答任务的自动化处理需要先进的算法和模型支持,以确保生成的字幕和回答的准确性和相关性。此外,数据集的规模和多样性也是一个重要挑战,确保数据集能够覆盖广泛的应用场景和用户需求。最后,数据集的发布和维护需要持续的技术支持和更新,以适应不断发展的技术和研究需求。
常用场景
经典使用场景
在视频理解领域,Egocentric Video Understanding Dataset (EVUD) 数据集的经典使用场景主要集中在视频字幕生成和问答任务上。该数据集通过提供丰富的第一视角视频数据,使得研究人员能够训练视觉语言模型(VLM),从而实现对视频内容的精准描述和复杂问题的自动回答。这种应用不仅提升了视频内容的可访问性,还为智能视频分析和交互提供了新的可能性。
解决学术问题
EVUD 数据集在学术研究中解决了第一视角视频理解的关键问题。传统的视频数据集往往缺乏第一视角的视角信息,导致模型在处理个人化、情境化的视频内容时表现不佳。EVUD 通过提供大量的第一视角视频数据,填补了这一空白,使得研究人员能够开发出更加精准和情境感知的视频理解模型。这不仅推动了视频理解技术的发展,还为相关领域的研究提供了新的数据支持。
衍生相关工作
EVUD 数据集的发布催生了一系列相关研究工作。例如,基于 EVUD 数据集,研究人员开发了 AlanaVLM 模型,该模型在视频字幕生成和问答任务上表现优异,并在多个公开数据集上取得了领先的成绩。此外,EVUD 还促进了第一视角视频理解领域的其他研究,如视频动作识别、场景理解等,推动了整个领域的发展和创新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GAOKAO-Bench

GAOKAO-Bench是由复旦大学计算机科学与技术学院创建的数据集,涵盖了2010至2022年间中国高考的所有科目题目,共计2811题。该数据集包含1781道客观题和1030道主观题,题型多样,包括单选、填空、改错、开放性问题等。数据集通过自动化脚本和人工标注将PDF格式的题目转换为JSON文件,数学公式则转换为LATEX格式。GAOKAO-Bench旨在为大型语言模型提供一个全面且贴近实际应用的评估基准,特别是在解决中国高考相关问题上的表现。

arXiv 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

Cultural Dimensions Dataset

该数据集包含了霍夫斯泰德文化维度理论(Hofstede's Cultural Dimensions Theory)的相关数据,涵盖了多个国家和地区的文化维度评分,如权力距离、个人主义与集体主义、男性化与女性化、不确定性规避、长期取向与短期取向等。这些数据有助于研究不同文化背景下的行为模式和价值观。

geerthofstede.com 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

OECD - Education at a Glance

该数据集提供了关于教育系统在不同国家和地区的详细统计数据,包括教育支出、教育参与率、教育成果、教师资源等多个方面。数据涵盖了OECD成员国以及部分非成员国。

www.oecd.org 收录