five

MINED

收藏
github2025-10-30 更新2025-10-31 收录
下载链接:
https://github.com/MINED-LMM/MINED
下载链接
链接失效反馈
官方服务:
资源简介:
MINED是一个全面的基准数据集,用于评估大型多模态模型的时间感知能力,包含6个关键维度和11个具有挑战性的任务:认知、意识、可信度、理解、推理和鲁棒性。该数据集由两位专业标注人员从维基百科构建,包含2,104个时间敏感知识样本,涵盖六种知识类型。

MINED is a comprehensive benchmark dataset designed for evaluating the temporal awareness capabilities of large multimodal models, which encompasses 6 core dimensions and 11 challenging tasks: cognition, awareness, credibility, comprehension, reasoning, and robustness. Constructed from Wikipedia by two professional annotators, this dataset contains 2,104 temporally sensitive knowledge samples covering six types of knowledge.
创建时间:
2025-10-29
原始信息汇总

MINED 数据集概述

数据集简介

MINED 是一个用于评估大型多模态模型时间敏感知识理解能力的综合性基准。该数据集针对静态表示难以准确理解时间敏感事实知识的问题,从6个关键维度和11个挑战性任务对模型进行评测。

核心特征

评估维度

  • 认知:时间无关知识理解
  • 意识:未来时间意识和预测一致性、过去时间意识和回溯一致性
  • 可信度:未来日期不可回答查询、过去日期不可回答查询
  • 理解:复杂时间语义理解和推理
  • 推理:排序/比较、日期/时间相关算术和推导
  • 鲁棒性:时间扰动和表述变化的鲁棒性

数据规模

  • 包含2,104个时间敏感知识样本
  • 涵盖六种知识类型
  • 基于维基百科构建,由两名专业标注者完成

数据集结构

MINED ├── inference_data (json/jsonl) │ ├── Dimension1_time_agnostic.json │ ├── Dimension1_temporal_interval.json │ ├── Dimension2_awareness_future.json │ ├── Dimension2_awareness_past.json │ ├── Dimension3_future_unanswerable_date.json │ ├── Dimension3_previous_unanswerable_date.json │ ├── Dimension4_understanding.json │ ├── Dimension5_calculation.json │ ├── Dimension5_ranking.json │ └── Dimension6_robustness.json └── imgs └── MINED_Image.zip

评估结果

在评估的15个广泛使用的大型多模态模型中:

  • Gemini-2.5-Pro获得最高平均CEM分数63.07
  • 大多数开源LMM仍缺乏时间理解能力
  • 模型在组织知识方面表现最佳,在体育知识方面表现最弱

应用价值

通过知识编辑方法研究更新LMM中时间敏感知识的可行性,发现在单次编辑场景中,LMM能够通过知识编辑方法有效更新知识。

获取方式

数据集可通过Huggingface获取:https://huggingface.co/datasets/kailinjiang/MINED

引用信息

bibtex @article{jiang2025mined, title = {MINED: Probing and Updating with Multimodal Time-Sensitive Knowledge for Large Multimodal Models}, author = {Jiang, Kailin and Jiang, Ning and Ren, Yuchen and Li, Yuchen and Gao, Yifan and Bi, Jinhe and Ma, Yunpu and Liu, Qingqing and Wang, Xianhao and Jia, Yifan and Jiang, Hongbo and Hu, Yaocong and Li, Bin and Liu, Lei and Du, Yuntao}, year = {2025}, url = {https://arxiv.org/pdf/2510.19457} }

搜集汇总
数据集介绍
main_image_url
构建方式
在大型多模态模型研究领域,时间敏感性知识评估成为关键挑战。MINED数据集基于维基百科内容,由两位专业标注者精心构建,涵盖六类知识领域的2104个时间敏感样本。该数据集通过系统化标注流程,整合了时间无关认知、时间点推理、时间区间分析等多维度知识结构,确保每个样本均具备明确的时间属性和多模态特征。构建过程中严格遵循时间逻辑一致性原则,形成了覆盖认知、感知、可信度等11项核心任务的评估体系。
特点
该数据集最显著的特征在于其多维时间评估框架,完整覆盖时间敏感知识的六个关键维度。每个维度下设特定任务类型,包括未来感知、过去回溯、时序排序等独特设计。数据集样本呈现丰富的时间语义层次,既包含具体时间点的精确推理,也涉及时间区间的状态推断。特别设计的不可回答性问题与鲁棒性测试项,有效检验模型对时间边界和语义扰动的处理能力,为多模态时间理解研究提供全面基准。
使用方法
研究人员可通过Huggingface平台获取数据集文件,按照预设的JSON结构组织图像与文本对。使用VLMEvalKit评估工具包,运行inference.py脚本即可进行模型推理,通过指定data_eval_type参数选择不同时间任务类型。评估阶段调用专用cem_f1.py计算指标,支持自定义任务指令以适应特定研究需求。该标准化流程确保评估结果的可比性,同时保持扩展灵活性。
背景与挑战
背景概述
随着大语言模型在多模态领域的快速发展,大型多模态模型通过跨模态预训练编码了丰富的知识信息。然而,这些静态知识表示难以应对时间敏感信息的动态变化,导致模型在现实应用中存在时效性认知局限。MINED数据集由专业研究团队于2025年创建,聚焦于评估多模态模型对时间敏感知识的理解能力,涵盖认知、感知、可信度等六个核心维度,构建了包含2104个样本的基准测试集。该数据集通过系统化评估揭示了现有模型在体育领域知识更新中的薄弱环节,为动态知识维护研究提供了重要支撑。
当前挑战
在时间敏感知识理解领域,模型需要解决知识时效性衰减的核心难题,具体表现为对历史事件时序推理与未来预测一致性的双重挑战。数据集构建过程中面临多维度标注复杂性,需协调六类知识类型与十一种任务形式的语义对齐,同时确保时间戳与视觉内容的精确关联。专业标注者需从维基百科动态信息流中提取具有时间敏感特性的样本,并建立跨模态的时间逻辑验证机制,这对标注一致性与时序逻辑完整性提出了极高要求。
常用场景
经典使用场景
在大型多模态模型研究领域,MINED数据集被广泛用于评估模型对时间敏感知识的理解能力。该数据集通过涵盖六个关键维度和十一项挑战性任务,系统性地测试模型在认知、时间感知、可信度、语义理解、推理及鲁棒性方面的表现。研究人员利用其结构化样本,能够深入分析模型在处理动态变化事实时的局限性,为优化模型的时间敏感性提供基准支持。
实际应用
该数据集的实际价值体现在智能问答系统和动态知识库的构建中。例如,在新闻事件追踪、企业信息更新或体育赛事记录等场景,MINED能够辅助开发具有时序感知能力的多模态助手。通过评估模型对时间敏感事实的响应准确性,可优化金融分析、医疗记录管理等行业应用的实时决策支持系统,确保输出信息与最新动态保持一致。
衍生相关工作
基于MINED的评估框架,衍生出多项针对大型多模态模型知识更新的研究。例如,研究者探索了知识编辑方法在单次编辑场景中对时间敏感知识的修正效果,并开发了适配时序推理的微调策略。这些工作进一步推动了如动态知识注入、跨模态时序对齐等技术的创新,为构建可持续演进的多模态认知系统奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作