five

EvQA

收藏
arXiv2025-12-12 更新2025-12-16 收录
下载链接:
https://github.com/HYLZ-2019/EvQA
下载链接
链接失效反馈
官方服务:
资源简介:
EvQA是由北京大学等机构联合构建的首个基于真实事件数据的多模态大语言模型客观评测基准,包含来自22个公开数据集的1000个事件-Q&A对。该数据集覆盖街景交通、南极野生动物等多样化场景,涉及11种事件相机型号,所有问题均经过人工专家验证并支持中英双语。其通过精心设计的多选题形式实现客观评估,旨在解决事件相机与语言模型融合时缺乏真实数据基准的难题,为事件流的高阶语义理解任务提供标准化测试平台。

EvQA is the first objective evaluation benchmark for multimodal large language models based on real event data, jointly developed by Peking University and other institutions. It encompasses 1000 event-Q&A pairs collected from 22 public datasets. This benchmark covers diverse scenarios including street traffic and Antarctic wildlife, and involves 11 distinct event camera models. All questions have been validated by human experts and are available in both Chinese and English. It employs carefully designed multiple-choice formats to enable objective evaluation, aiming to address the critical shortage of real-world data benchmarks for the integration of event cameras and large language models, and provides a standardized testbed for high-level semantic understanding tasks of event streams.
提供机构:
北京大学, 上海创新研究院, 上海人工智能实验室, 复旦大学
创建时间:
2025-12-12
原始信息汇总

EvQA 数据集概述

数据集基本信息

  • 数据集名称: EvQA
  • 核心用途: 事件相机视觉问答
  • 关联论文: "Reconstruction as a Bridge for Event-Based Visual Question Answering"
  • 论文链接: https://arxiv.org/pdf/2512.11510
  • 数据集下载地址: https://huggingface.co/datasets/hylz/EvQA

数据集内容与结构

数据集包含两个主要目录:h5_filesquestions

1. 问题标注 (questions 目录)

  • 格式: JSON 文件
  • 文件路径: questions/{dataset_name}.json
  • 内容:
    • 元数据:包含数据集名称和描述。
    • 问题列表:每个条目包含问题ID、对应的H5文件路径、相机类型、分辨率、问题类型、持续时间、关键词,以及问题和答案的文本(包含英文和中文)与多项选择选项。

2. 事件数据 (h5_files 目录)

  • 组织方式: 按数据集名称组织,结构为 h5_files/{dataset_name}/{question_id}.h5h5_files/{dataset_name}/LICENSE.txt
  • 数据格式: HDF5 (.h5) 格式,使用 h5py 生成并启用压缩。
  • 文件属性(元数据):
    • sensor_resolution: 传感器空间分辨率 (H, W)。
    • num_events: 事件总数。
    • num_imgs: 强度图像数量(若无则为0)。
    • duration: 记录时长(秒)。
    • camera_type: 事件相机型号。
    • data_source: 源数据集名称。
    • base_time: 记录开始的绝对时间戳(纪元时间)。若原始时间戳为相对值,则设为0.0。文件中的时间戳相对于此基准时间(即从0开始)。
  • 事件数据存储:
    • events/xs: 事件的X坐标 (uint16)。
    • events/ys: 事件的Y坐标 (uint16)。
    • events/ts: 事件的时间戳(微秒,uint64),ts[0] == 0
    • events/ps: 事件的极性 (uint8),取值为0或1。
  • 图像数据存储(如可用):
    • 存储为单独的数据集,命名格式为 images/image{idx:09d},其中 idx 为图像索引。
    • 每个图像数据集属性:
      • event_idx: 对应图像时间戳的事件索引。
      • timestamp: 图像的时间戳 (uint64),与事件流时间戳对齐。

相关模型权重

为运行相关代码,需下载以下预训练模型权重:

  1. V2V-E2VID: 用于FRT及审阅系统。
    • 下载链接:https://drive.google.com/file/d/1pCcu74dwQeYj8HI2TbOWkkAdnuoi9bW7/view?usp=drive_link
    • 目标路径:adaptive_e2vid/checkpoints/v2v_e2vid_10k/epoch_0077.pth
  2. Adaptive-E2VID: 用于ART。
    • 下载链接:https://drive.google.com/drive/folders/1jea3bJvSy89Gu1Y8bYAn-JkzQziRz7iA?usp=sharing
    • 目标路径:adaptive_e2vid/checkpoints/adaptive_e2vid/epoch_0059.pth
  3. Qwen3-VL: 用于FRT和ART。
    • 下载源:https://huggingface.co/collections/Qwen/qwen3-vl 或 https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b

引用信息

如需在研究中引用此数据集或相关方法,请使用以下BibTeX格式:

@InProceedings{lou2025evqa, title={Reconstruction as a Bridge for Event-Based Visual Question Answering}, author={Lou, Hanyue and Zhou, Jiayi and Zhang, Yang and Li, Boyu and Wang, Yi and Guangnan, Ye and Shi, Boxin}, booktitle={arXiv preprint arXiv:2512.11510}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在事件相机与多模态大语言模型融合的研究背景下,EvQA基准的构建遵循了严谨的流程以确保其多样性与客观性。研究团队从22个公开的真实世界事件相机数据集中精心筛选了1000个事件序列,这些数据涵盖了从街道交通到南极野生动物的广泛场景,并使用了11种不同型号的事件相机进行采集,从而保证了数据来源的广泛性和真实性。每个序列都通过人工标注流程生成了客观的多选题问答对,标注者首先将事件数据转换为统一格式并可视化,随后基于对事件流和重建视频的观察,手动创建涵盖物体识别、动作识别、时空关系等九大类别的问题,并确保每个问题都有四个选项和一个明确答案。所有标注结果均经过人工审查,并提供了中英双语版本,最终形成了一个高保真、高多样性的评估基准。
特点
作为首个面向事件基多模态大语言模型的客观真实世界基准,EvQA展现出若干核心特征。其首要特点是评估的客观性,它摒弃了依赖大语言模型打分的主观评价方式,全部采用具有明确答案的多选题形式,为不同方法提供了公平、可复现的比较标准。数据的高保真度是另一显著优势,基准严格选用真实捕获的事件流,避免了使用屏幕拍摄或视频模拟生成的合成或半真实数据,从而确保了评估场景与真实应用的紧密对接。此外,数据集展现了卓越的多样性,其源数据横跨22个不同数据集,覆盖了丰富的视觉场景与任务类型,并集成了多种事件相机型号的数据,这有力地支撑了模型在多样化真实条件下的泛化能力评估。
使用方法
在事件视觉与语言理解的研究领域,EvQA基准为评估和比较不同方法提供了标准化的测试平台。使用者通常将待评估的事件基多模态大语言模型在EvQA的1000个问答对上进行推理,模型需要根据输入的事件流或由其转换的表示来回答对应的多选题,并以答案准确率作为核心性能指标。为了适配现有基于帧的模型,研究者提出了帧重建与标记化方法,该方法利用先进的V2V-E2VID模型将事件流重建为视频帧序列,再输入至Qwen3-VL等大语言模型进行处理。为进一步利用事件数据的稀疏性,自适应重建与标记化方法被提出,它仅在事件活跃的时空区域触发重建和标记化,动态分配计算资源,为探索高效的事件原生处理范式提供了概念验证。
背景与挑战
背景概述
事件相机作为一种仿生传感器,通过异步记录像素级亮度变化,在高速运动、极端光照等挑战性场景中展现出微秒级时间分辨率、高动态范围和低功耗的独特优势。然而,将事件流与具备高级场景理解能力的多模态大语言模型相结合,以实现事件驱动的视觉问答,仍是一个新兴且充满潜力的研究方向。在此背景下,北京大学、复旦大学等机构的研究团队于2025年提出了EvQA基准数据集。该数据集旨在为事件驱动的多模态大语言模型提供首个客观、真实世界的评估标准,其核心研究问题是探索如何有效桥接事件流的稀疏、异步特性与基于帧的传统大语言模型之间的模态鸿沟,从而推动事件相机在需要语言交互的通用场景理解任务中的应用。
当前挑战
EvQA数据集所针对的领域核心挑战在于事件驱动的视觉问答任务本身。这涉及如何将事件相机捕获的异步、稀疏的亮度变化序列,转化为多模态大语言模型能够理解并据此回答问题的有效表示,同时不丢失事件数据的高时间分辨率等固有优势。在数据集构建过程中,研究者面临多重具体挑战:首先,需要从大量公开数据集中筛选并整合高质量的真实事件流,避免使用合成或半真实数据带来的域差距,这要求对22个来源数据集进行严格的许可验证与格式统一。其次,为构建客观的多选题评估基准,需设计严谨的人工标注流程以克服自动生成问题带来的答案不一致性、空间描述模糊性、计数歧义以及原始数据集标签噪声等问题,确保每个问题都基于事件数据可客观回答。
常用场景
经典使用场景
在事件相机与多模态大语言模型融合的前沿领域,EvQA数据集作为首个基于真实事件数据的客观评测基准,其经典使用场景聚焦于评估模型对动态视觉场景的语言理解能力。该数据集从22个公开数据集中精心选取了1000个真实世界事件序列,每个序列均配有人工标注的客观选择题,涵盖从街头交通到南极野生动物的多样化场景。研究者通过将事件流输入模型并评估其回答问题的准确率,能够系统性地衡量不同方法在事件视觉问答任务上的性能表现,为模型优化与比较提供了坚实的实验基础。
衍生相关工作
围绕EvQA数据集及其提出的挑战,已衍生出一系列探索事件与多模态大语言模型融合的经典工作。其论文本身提出的帧重建与标记化方法及自适应重建与标记化方法,为后续研究提供了两种核心范式:一种优先考虑与现有模型的兼容性,另一种则致力于利用事件稀疏性以提升效率。这些工作与早期的EventGPT、EventVL等尝试共同构成了该领域的研究脉络。EvQA作为基准,进一步激励了后续研究去设计能原生处理异步稀疏数据的新型网络架构,以及开发更高效的、基于事件活动动态分配计算资源的模型,持续推动着事件视觉语言理解方向的发展。
数据集最近研究
最新研究方向
在事件相机与多模态大语言模型融合的领域,EvQA数据集作为首个基于真实事件数据的客观评测基准,正推动着事件视觉问答的前沿探索。当前研究聚焦于如何有效平衡事件数据的高时空分辨率特性与现有大模型的兼容性,其中基于重建的方法成为关键桥梁。例如,帧重建与标记化策略通过将事件流转换为视频帧,实现了与预训练模型的直接对接;而自适应重建与标记化方法则进一步利用事件稀疏性,动态分配计算资源以提升效率。这些进展不仅解决了事件流与大模型之间的模态鸿沟,也为在高速运动、极端光照等挑战性场景下的通用场景理解开辟了新路径,标志着事件视觉向更高层次语义任务迈进的重要一步。
相关研究论文
  • 1
    Reconstruction as a Bridge for Event-Based Visual Question Answering北京大学, 上海创新研究院, 上海人工智能实验室, 复旦大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作