Event-Image/Video Pairs
收藏arXiv2025-01-23 更新2025-02-25 收录
下载链接:
http://arxiv.org/abs/2501.13707v1
下载链接
链接失效反馈官方服务:
资源简介:
Event-Image/Video Pairs数据集由香港科技大学(广州)、鲁汶大学和香港中文大学联合创建,包含约140万条高质量的事件-图像/视频-文本配对数据。该数据集旨在通过多模态大语言模型(MLLM)实现对事件流的深度语义理解。数据集涵盖了多种场景,如驾驶场景和人体运动场景,数据来源包括静态图像、动态场景和人体运动视频。数据集的创建过程利用了开源的MLLM模型进行标注,并通过人工检查确保数据质量。该数据集主要用于事件描述生成、场景理解等任务,旨在解决事件数据在细粒度语义理解上的瓶颈问题。
提供机构:
香港科技大学(广州)1, 鲁汶大学2, 香港中文大学3
创建时间:
2025-01-23



