EgoNight

github2026-02-22 更新2026-02-24 收录

下载链接：

https://github.com/dehezhang2/EgoNight

下载链接

链接失效反馈

官方服务：

资源简介：

EgoNight是第一个全面的基准测试，旨在评估低光和夜间条件下的自我中心视觉理解，填补了当前研究中的一个关键空白。

EgoNight is the first comprehensive benchmark designed to evaluate egocentric visual understanding under low-light and nighttime conditions, filling a critical gap in current research.

创建时间：

2026-02-22

原始信息汇总

EgoNight 数据集概述

数据集简介

EgoNight 是首个用于评估低光照和夜间条件下第一人称（自我中心）视觉理解的综合性基准。它旨在填补当前研究中的一个关键空白。

核心功能

该基准用于评估视觉-语言模型在各种场景下的第一人称视频问答能力。它同时支持夜间（默认）和白天图像，并包含一个用于成对日/夜比较的精选问题类型子集。

问题类型

物体识别
空间推理
场景序列
非常见
计数
导航
文本识别
动作

数据集构成

数据集包含三个子集：

EgoNight-Sofia
EgoNight-Oxford
EgoNight-Synthetic

数据格式

每个评估样本是一个子文件夹，包含以下结构：

<subfolder>/ ├── qa_result/ │ ├── all_qa_filtered.json # 问答标注文件 │ ├── _results.json # 模型输出文件 │ └── _scores.json # 评分输出文件 └── extracted_frames/ ├── Night/ # 夜间图像 └── Day/ # 白天图像（可选）

帧采样率

EgoNight-Sofia 和 EgoNight-Oxford：以 1 fps 采样
EgoNight-Synthetic：以 2 fps 采样

标注文件 (all_qa_filtered.json)

该文件为对象列表，包含以下字段：

question：问题文本
question_type：问题类型（如上所列）
answer：真实答案
start_frame：起始帧索引（从0开始）
end_frame：结束帧索引（包含）

评估与输出

支持的评估模型

GPT-4.1
Gemini 2.5 Pro
Qwen 2.5 VL 7B（需本地API服务器）

输出文件

GPT：gpt_results.json / gpt_results_day.json
Gemini：gemini_results.json / gemini_results_day.json
Qwen 7B：qwen7b_results.json / qwen7b_results_day.json

每个结果JSON文件包含条目，字段有：Q（问题）、A（预测）、C（真实答案）、M（类别）以及帧索引。

评分输出

评分过程生成 *_scores.json 文件，包含GPT-4o的评估结果：正确/错误、0–5分评分以及推理过程。

许可证

GNU General Public License v3.0。详细信息见 https://github.com/dehezhang2/EgoNight/blob/main/LICENSE

搜集汇总

数据集介绍

构建方式

EgoNight数据集通过整合多个真实世界与合成数据源构建而成，涵盖Sofia、Oxford和Synthetic三个子集。数据采集过程以自我中心视角为核心，在低光照与夜间环境下录制视频，并采用差异化帧采样策略：EgoNight-Sofia与EgoNight-Oxford以每秒1帧采样，而EgoNight-Synthetic则以每秒2帧采样。每个样本均包含精心标注的问答对，问题涵盖对象识别、空间推理、场景序列等八种类型，并配有起始与结束帧索引，确保时间维度的精确对齐。数据组织采用分层目录结构，将原始帧图像与标注文件分离存储，为后续评估提供清晰的数据基础。

特点

EgoNight作为首个专注于低光照与夜间条件下的自我中心视觉理解基准，其核心特点在于填补了该领域的研究空白。数据集不仅提供夜间场景，还包含可选的白天对照图像，支持跨光照条件的对比分析。问题类型设计具有多样性，覆盖从基础对象识别到复杂导航推理的多个认知层次，能够全面评估视觉语言模型的综合能力。数据格式统一且结构化，每个样本独立成文件夹，包含完整的图像序列与标注文件，便于模型训练与评估流程的自动化。此外，数据集天然支持多模型评估框架，兼容GPT、Gemini及Qwen等主流视觉语言模型，为性能比较提供了标准化平台。

使用方法

使用EgoNight数据集时，需首先配置Python依赖环境并设置相应的API密钥。评估过程支持单样本与批量两种模式：对于单个样本，可通过指定命令行参数调用不同模型的评估脚本；对于批量处理，则利用提供的Shell脚本并行执行多个样本。评估完成后，系统会生成包含模型预测结果的JSON文件，随后可调用评分脚本，基于GPT-4o作为评判者对预测答案进行自动化评分与质量分析。最终，用户可通过汇总脚本计算各子集及整体准确率，并按照问题类型进行细分统计，从而获得模型在低光照视觉理解任务上的详细性能剖面。整个流程实现了从数据加载、模型推理到结果评估的全链条自动化。

背景与挑战

背景概述

在计算机视觉领域，第一人称视角（Egocentric Vision）理解已成为研究热点，其旨在模拟人类视觉感知，解析穿戴式设备捕获的动态场景信息。然而，现有数据集多聚焦于光照充足环境，对低光照与夜间条件下的视觉理解存在显著空白。EgoNight数据集应运而生，作为首个全面评估低光与夜间条件下第一人称视觉理解的基准，由研究团队于近期创建，核心研究问题在于探索视觉-语言模型在复杂光照环境下的鲁棒性与泛化能力。该数据集通过整合真实世界与合成数据，涵盖物体识别、空间推理、场景序列等多种任务类型，为推进夜间视觉智能的发展提供了关键基础设施，对自动驾驶、辅助系统及机器人感知等领域具有深远影响。

当前挑战

EgoNight数据集致力于解决低光照与夜间条件下第一人称视觉问答的领域挑战，其核心在于克服光照不足导致的视觉特征退化、噪声干扰以及色彩失真等问题，这些因素严重制约模型对场景内容与动态关系的准确解析。在构建过程中，数据集面临多重挑战：真实世界夜间数据的采集需平衡隐私伦理与数据质量，确保场景多样性与标注一致性；合成数据的生成则需模拟逼真的夜间视觉效果，避免与真实数据分布脱节。此外，设计涵盖对象识别、空间推理、文本识别等八类问题的评估体系，要求精细的标注框架与跨场景泛化验证，以全面衡量模型在极端光照条件下的认知能力。

常用场景

经典使用场景

在计算机视觉与人工智能领域，EgoNight数据集作为首个专注于低光与夜间条件下的自我中心视觉理解基准，其经典使用场景在于评估视觉语言模型在复杂光照环境下的性能。该数据集通过提供涵盖对象识别、空间推理、场景序列等多种问题类型的自我中心视频问答任务，模拟了真实世界中夜间活动的视觉挑战，为模型在弱光条件下的鲁棒性测试提供了标准化平台。

衍生相关工作

EgoNight数据集已衍生出多项经典研究工作，包括基于GPT-4、Gemini和Qwen等大型视觉语言模型的低光视觉问答评估框架。这些工作不仅推动了夜间视觉理解算法的进步，还促进了跨模型性能比较研究，为后续开发适应极端光照条件的轻量化模型提供了重要参考基准。

数据集最近研究