five

EgoThink 第一人称视角下视觉问答基准数据集

收藏
超神经2024-04-11 更新2024-05-15 收录
下载链接:
https://hyper.ai/cn/datasets/30700
下载链接
链接失效反馈
官方服务:
资源简介:
EgoThink 是由清华大学提出的一个基于第一人称视角的视觉问答基准数据集。该数据集包含 700 张图像,涵盖了 6 个核心能力,细分为 12 个维度。 EgoThink 的图像来源于 Ego4D 第一人称视频数据集的采样图片,为了确保数据的多样性,每个视频最多只采样 2 张图片。

EgoThink is a first-person visual question answering benchmark dataset proposed by Tsinghua University. It contains 700 images covering 6 core capabilities, which are further subdivided into 12 dimensions. The images of EgoThink are sampled from the Ego4D first-person video dataset. To ensure data diversity, a maximum of 2 images are sampled from each individual video.
创建时间:
2024-04-09
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
EgoThink是由清华大学构建的第一人称视角视觉问答基准数据集,包含700张从Ego4D视频中采样的图像,覆盖6个核心能力和12个维度。该数据集通过人工标注,每个维度至少提供50个详细问答问题,旨在评估和提升视觉语言模型在第一人称视角任务中的性能,为具身人工智能和机器人研究提供资源。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务