DateTimeQA

Hugging Face2025-02-10 更新2025-02-11 收录

下载链接：

https://huggingface.co/datasets/rohitsaxena/DateTimeQA

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含两个子集：时钟数据集和日历数据集。每个条目包括类别、相关问题、正确答案以及时钟或日历的图像。时钟数据集包含多种类型的时钟图像，以及与之相关的时间问题。日历数据集包含年度日历图像，以及与特定日期相关的问题。

创建时间：

2025-01-29

原始信息汇总

数据集概述

数据集名称

Clock and Calendar Dataset

数据集简介

该数据集包含两个子集：Clock 和 Calendar，每个子集包含与图像相对应的问题和答案，适合评估多模态大型语言模型（MLLMs）在日历和模拟时钟解释方面的推理能力。

数据集结构

type: 时钟类型/日历年份。
question: 与图像显示的时间或日期相关的问题。
answer: 问题的正确答案。
image: 时钟或日历的图像。

子集详情

Clock 子集

包含各种类型的时钟图像以及与所示时间相关的问题和答案。

Clock 数据类别

Basic clock: 标准模拟时钟。
Black dial clock: 黑色表盘背景的时钟。
No second hand: 没有秒针的时钟。
Easy: 显示简单小时时间的时钟（例如，1小时、2小时标记）。
Roman: 使用罗马数字表示小时的时钟。
Hand as arrows: 手指呈箭头形状的时钟。

Calendar 子集

包含年度日历图像以及与特定日期相关的问题。

Calendar 数据类别

Popular days: 与圣诞节和新年相关的问题。
Less popular day: 关于3月15日（罗马历法中的“Ides of March”）的问题。
Random date: 关于随机选定日期（11月21日）的问题。
Count-based days: 关于一年中的第100天和第153天的问题。

数据集大小

下载大小：5231483字节
数据集大小：16595970字节

引用信息

@misc{saxena2025losttimeclockcalendar, title={Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs}, author={Rohit Saxena and Aryo Pradipta Gema and Pasquale Minervini}, year={2025}, eprint={2502.05092}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2502.05092}, }

搜集汇总

数据集介绍

构建方式

DateTimeQA数据集的构建采取图像与文本相结合的方式，分为clock与calendar两大类。clock数据集包含不同类型的时钟图像，每种类型的时钟图像均配以相关的时间问题及答案；calendar数据集则包含年度日历图像，配以与特定日期相关的问题和答案。每一条数据均包含类别、问题、答案和图像四个要素，其中类别要素区分了clock和calendar两种类型。

使用方法

使用DateTimeQA数据集时，用户需先理解数据集的结构，并根据需求选择clock或calendar子集。数据集以问答对的形式组织，用户可以将其用于训练或测试多模态语言模型在时间推理方面的性能。此外，数据集还提供了详细的类别信息，有助于模型学习不同类型时钟和日历的特点。

背景与挑战

背景概述

DateTimeQA数据集，作为一项专注于评估多模态大型语言模型（MLLMs）在日历和模拟时钟解读方面推理能力的研究成果，由Rohit Saxena、Aryo Pradipta Gema和Pasquale Minervini等于2025年构建。该数据集包含两个子集——Clock和Calendar，以图像与相关问题的问答对形式组织，旨在推动自然语言处理领域对时间理解的研究。其对领域发展的贡献在于，为评估和提升模型处理与时间和日期相关问题的能力提供了重要的实验基础。

当前挑战

该数据集面临的挑战主要体现在两个方面：一是领域问题解决的挑战，即如何使MLLMs准确理解和推理图像中的时间或日期信息；二是构建过程中的挑战，包括如何构建具有代表性、涵盖多种时钟和日历类型的数据集，以及如何确保问题与答案的准确性和多样性。此外，由于数据集规模较小，其泛化能力和在实际应用中的表现仍需进一步验证。

常用场景

经典使用场景

在人工智能研究领域，DateTimeQA数据集以其独特的图像-文本结构，成为了评估多模态大型语言模型（MLLMs）在理解和推理钟表与日历方面的能力的重要资源。该数据集的典型使用场景在于，研究人员可以利用其提供的图像和相应的问题与答案，对模型进行钟表时间读取和日历日期理解的任务训练与测试。

解决学术问题

DateTimeQA数据集解决了如何有效评估机器在处理与时间相关的视觉问答任务上的难题，为学术研究提供了关于时间推理的标准化测试平台，这对于推动多模态学习的发展具有重要意义。同时，它也帮助研究人员识别和改进模型在理解复杂时间表达和视觉信息方面的不足。

实际应用

在实际应用中，DateTimeQA数据集的应用前景广阔，例如，在智能助手、自动化日程规划系统以及教育软件中，它可以帮助系统更好地理解和响应用户关于时间和日期的查询，提升用户体验和系统效能。

数据集最近研究