MINED
收藏MINED 数据集概述
数据集简介
MINED 是一个用于评估大型多模态模型时间敏感知识理解能力的综合性基准。该数据集针对静态表示难以准确理解时间敏感事实知识的问题,从6个关键维度和11个挑战性任务对模型进行评测。
核心特征
评估维度
- 认知:时间无关知识理解
- 意识:未来时间意识和预测一致性、过去时间意识和回溯一致性
- 可信度:未来日期不可回答查询、过去日期不可回答查询
- 理解:复杂时间语义理解和推理
- 推理:排序/比较、日期/时间相关算术和推导
- 鲁棒性:时间扰动和表述变化的鲁棒性
数据规模
- 包含2,104个时间敏感知识样本
- 涵盖六种知识类型
- 基于维基百科构建,由两名专业标注者完成
数据集结构
MINED ├── inference_data (json/jsonl) │ ├── Dimension1_time_agnostic.json │ ├── Dimension1_temporal_interval.json │ ├── Dimension2_awareness_future.json │ ├── Dimension2_awareness_past.json │ ├── Dimension3_future_unanswerable_date.json │ ├── Dimension3_previous_unanswerable_date.json │ ├── Dimension4_understanding.json │ ├── Dimension5_calculation.json │ ├── Dimension5_ranking.json │ └── Dimension6_robustness.json └── imgs └── MINED_Image.zip
评估结果
在评估的15个广泛使用的大型多模态模型中:
- Gemini-2.5-Pro获得最高平均CEM分数63.07
- 大多数开源LMM仍缺乏时间理解能力
- 模型在组织知识方面表现最佳,在体育知识方面表现最弱
应用价值
通过知识编辑方法研究更新LMM中时间敏感知识的可行性,发现在单次编辑场景中,LMM能够通过知识编辑方法有效更新知识。
获取方式
数据集可通过Huggingface获取:https://huggingface.co/datasets/kailinjiang/MINED
引用信息
bibtex @article{jiang2025mined, title = {MINED: Probing and Updating with Multimodal Time-Sensitive Knowledge for Large Multimodal Models}, author = {Jiang, Kailin and Jiang, Ning and Ren, Yuchen and Li, Yuchen and Gao, Yifan and Bi, Jinhe and Ma, Yunpu and Liu, Qingqing and Wang, Xianhao and Jia, Yifan and Jiang, Hongbo and Hu, Yaocong and Li, Bin and Liu, Lei and Du, Yuntao}, year = {2025}, url = {https://arxiv.org/pdf/2510.19457} }




