five

TIME10k

收藏
arXiv2025-10-22 更新2025-10-24 收录
下载链接:
http://arXiv.org/abs/2510.19559
下载链接
链接失效反馈
官方服务:
资源简介:
TIME10k数据集是一个包含超过10,000张图像的时间标注数据集,这些图像涵盖了6个类别的物体。该数据集旨在评估和比较视觉语言模型在时间感知和时间预测能力方面的表现。数据集的创建是为了解决视觉分析中时间信息建模的挑战,特别是对于那些缺乏显式时间注释的数据集。通过分析模型嵌入空间中的时间结构,该数据集有助于理解模型如何隐式地编码时间信息,并为历史图像和视频集合的分析提供时间上下文。

The TIME10k dataset is a temporally annotated dataset containing over 10,000 images covering objects from 6 categories. It is designed to evaluate and compare the performance of vision-language models in terms of their temporal perception and temporal prediction capabilities. This dataset was created to address the challenges of temporal information modeling in visual analysis, particularly for datasets that lack explicit temporal annotations. By analyzing the temporal structure within the model's embedding space, it helps understand how models implicitly encode temporal information, and provides temporal context for the analysis of historical image and video collections.
提供机构:
St.Pölten University of Applied Sciences, TU Wien
创建时间:
2025-10-22
原始信息汇总

数据集概述

基本信息

  • 标题: A Matter of Time: Revealing the Structure of Time in Vision-Language Models
  • arXiv标识符: arXiv:2510.19559
  • 提交日期: 2025年10月22日
  • 学科分类: Computer Science > Computer Vision and Pattern Recognition
  • 作者: Nidham Tekaya, Manuela Waldner, Matthias Zeppelzauer

研究内容

  • 研究领域: 视觉语言模型的时间感知能力研究
  • 核心问题: 评估视觉语言模型将视觉内容定位在时间中的能力
  • 主要发现: 时间信息在VLM嵌入空间中沿着低维非线性流形结构组织

数据集与资源

  • 基准数据集: TIME10k(包含超过10,000张带时间标注的图像)
  • 评估范围: 37个视觉语言模型
  • 资源可用性: 所有代码和数据可通过https://doi.org/10.48550/arXiv.2510.19559获取

方法创新

  • 时间线表示: 从嵌入空间推导显式时间线表示的方法
  • 性能表现: 在时间推理任务中达到与基于提示的基线方法相当或更优的准确率
  • 计算效率: 提出的时间线方法具有计算高效性

相关链接

  • PDF文档: http://arXiv.org/pdf/2510.19559
  • DOI链接: https://doi.org/10.48550/arXiv.2510.19559
  • 相关DOI: https://doi.org/10.1145/3746027.3758163
搜集汇总
数据集介绍
main_image_url
构建方式
在视觉语言模型研究领域,构建具有精确时间标注的数据集对评估模型的时间感知能力至关重要。TIME10k数据集通过系统化采集流程,从维基百科分类体系中提取六类人造物体的首次出现时间,涵盖飞机、汽车、乐器、移动电话、船舶及武器弹药等类别。基于维基媒体共享资源的图像库,研究团队采用人工验证机制确保时间标注的准确性,最终形成包含10,091张图像的大规模数据集,时间跨度从1715年至2024年,充分体现了历史文档的自然分布特征。
特点
该数据集在时间标注粒度上采用年度级精度,与维基百科分类体系保持内在一致性。其样本分布呈现真实世界的时间偏移特性,近代物体图像数量显著多于历史时期,且早期图像多表现为绘画形式而非摄影作品。不同物体类别覆盖差异化的时间范围,如移动电话集中于1984-2024年,而乐器类则跨越1715-2009年,这种类别特异性为研究模型的时间泛化能力提供了多维度的评估基准。数据集构建过程中特别注重时间标注的可靠性,所有标注均源自维基百科的结构化分类系统。
使用方法
该数据集专为评估视觉语言模型的时间感知能力而设计,支持时间探测、嵌入空间分析和时间线建模三类核心方法。时间探测通过计算图像嵌入与时间提示嵌入的相似度矩阵,实现基于跨模态对齐的时间预测;嵌入空间分析运用核主成分分析和UMAP等降维技术,揭示时间信息在隐空间中的低维流形结构;时间线建模则通过贝塞尔曲线拟合或UMAP投影构建显式时间表征,实现高效的时间推理。研究证实约13维子空间即可有效捕获时间信息,为模型的时间感知机制研究提供了重要洞见。
背景与挑战
背景概述
TIME10k数据集由奥地利圣珀尔滕应用科学大学与维也纳工业大学的研究团队于2025年创建,旨在系统评估视觉语言模型对时间信息的感知能力。该数据集聚焦于人类制造物首次出现时间的标注问题,涵盖1715至2024年间六类对象的逾万张图像,包括飞行器、汽车、乐器等类别。通过挖掘维基百科层级分类体系中的时间元数据,该研究首次揭示了视觉语言模型嵌入空间中存在低维非线性时间流形结构,为跨模态时序推理奠定了理论基础。
当前挑战
该数据集致力于解决视觉语言模型时序感知能力的量化评估难题,其核心挑战在于高维嵌入空间中时间信息的隐式编码结构解析。构建过程中面临三重挑战:一是时序标注数据稀缺导致模型比较基准缺失,需通过维基百科分类体系构建可靠标注;二是视觉语言模型嵌入空间维度通常超过512维,潜在维度缺乏语义可解释性;三是传统提示探测方法需为每个年份生成嵌入向量,面临计算可扩展性瓶颈。
常用场景
经典使用场景
在视觉语言模型研究领域,TIME10k数据集被广泛应用于评估模型对时间信息的感知能力。该数据集通过包含跨越三个世纪的六类人造物体图像,为研究者提供了系统分析模型时间推理能力的标准化基准。典型应用场景包括通过时间探针方法测试模型对物体首次出现时间的预测精度,以及比较不同架构模型在时间维度上的表征差异。
解决学术问题
该数据集有效解决了视觉语言模型中时间感知能力量化评估的学术难题。通过提供精确的时间标注数据,研究者能够深入探究模型是否在嵌入空间中隐式编码了时间结构,以及这种编码是否遵循时序规律。这一突破使得原本难以量化的时间推理能力变得可测量,为理解多模态模型的时间认知机制提供了重要依据。
衍生相关工作
基于TIME10k数据集的研究催生了多项创新性工作,包括时序嵌入空间分析方法和显式时间线表示技术。研究者开发了基于UMAP的时序流形展开方法和贝塞尔曲线时间建模方法,这些方法不仅提升了时间预测精度,还揭示了视觉语言模型中时间信息的低维非线性结构特征。这些成果为后续的时序感知模型设计提供了理论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作