five

DailyClue

收藏
github2026-05-05 更新2026-05-14 收录
下载链接:
https://github.com/xiaominli1020/DailyClue
下载链接
链接失效反馈
官方服务:
资源简介:
DailyClue是一个用于日常场景中视觉线索驱动推理的基准数据集,旨在评估多模态大语言模型在过滤噪声并识别关键视觉线索以进行准确推理的能力。数据集涵盖4个主要日常领域和16个子任务,包含666个问题,格式包括多项选择、是/否和开放式回答。每个样本包括图像、问题、人类标注的视觉线索、正确答案、回答格式和类别信息。

DailyClue is a benchmark dataset for visual cue-driven reasoning in daily scenarios, aiming to evaluate the capability of multimodal large language models (LLMs) to filter out noise and identify critical visual cues for accurate reasoning. The dataset covers four major daily domains and 16 subtasks, containing 666 questions in formats including multiple choice, yes/no, and open-ended responses. Each sample includes an image, a question, human-annotated visual cues, the correct answer, answer format, and category information.
创建时间:
2026-05-05
原始信息汇总

DailyClue Benchmark 数据集详情

数据集简介

DailyClue 是一个专为日常场景中的视觉线索驱动推理而设计的基准数据集,旨在评估多模态大语言模型(MLLMs)在丰富视觉环境中过滤噪声、识别关键视觉线索并进行准确推理的能力。该数据集由大连理工大学、腾讯微信和清华大学的研究团队联合构建。

数据集规模与结构

数据统计

类别 问题数量 格式
日常常识推理(Daily Commonsense Reasoning) 180 多项选择、是否题、开放式
地点识别(Location Identification) 200 开放式(国家、地区)
空间推理(Spatial Reasoning) 163 多项选择、是否题
科学常识(Scientific Commonsense) 123 多项选择、是否题、开放式
总计 666

数据字段说明

每条样本包含以下字段:

字段 类型 描述
image list[str] 关联图像的的文件名
question str 待回答问题
clues str 人工标注的真实视觉线索
ground_truth str 正确答案
format str 答案格式(多项选择/是否题/开放式)
category_1 str 主要类别(四大领域之一)
category_2 str 子任务
language str 问题语言(英文)

数据集目录结构

dailyclue/ ├── dataset/ │ ├── daily_life/ # 日常常识推理图像 │ ├── location/ # 地点识别图像 │ ├── science/ # 科学常识图像 │ ├── spatial/ # 空间推理图像 │ ├── daily_life.json # 日常常识推理注释 │ ├── location.json # 地点识别注释 │ ├── science.json # 科学常识注释 │ └── spatial.json # 空间推理注释 ├── infer/ │ └── inference.py # 推理脚本 ├── eval/ │ └── eval.py # 评估脚本 ├── tools/ │ └── generate_leaderboard.py # 生成排行榜 ├── run_demo.sh # 一键演示脚本 ├── requirements.txt └── README.md

数据集访问

模型性能排行榜

开源 MLLMs(准确率 %)

模型 总体 地点识别 空间推理 日常常识 科学常识
LLaVA-OneVision-7B 24.47 10.50 34.97 25.56 31.71
LLaVA-OneVision-72B 33.18 15.50 47.85 33.33 42.28
LLaVA-OV-1.5-8B-Instruct 29.43 10.50 47.85 27.78 38.21
InternVL3-8B 31.08 13.50 31.67 31.67 41.46
InternVL3-38B 36.94 17.00 47.85 47.22 39.84
InternVL3-78B 40.84 18.00 54.60 52.78 42.28
InternVL-3.5-38B 36.91 14.00 49.69 43.33 43.90
Qwen2.5-VL-7B 30.63 15.00 39.88 37.22 34.15
Qwen2.5-VL-32B 35.59 21.50 42.94 42.78 38.21
Qwen2.5-VL-72B 40.84 24.50 47.85 48.33 47.15
Qwen3-VL-235B-A22B-Thinking 44.59 23.00 49.08 56.67 56.10
Qwen3-VL-235B-A22B-Instruct 40.69 22.50 46.63 50.00 48.78

闭源 MLLMs(准确率 %)

模型 总体 地点识别 空间推理 日常常识 科学常识
Gemini-2.5-Flash 🥉 50.00 32.50 55.83 59.44 56.91
Gemini-2.5-Pro 🥇 56.90 41.50 61.35 62.77 67.48
Claude-3.7-Sonnet 41.14 18.50 57.06 47.22 47.97
Claude-sonnet-4 41.74 22.00 52.15 48.89 49.59
Claude-sonnet-4.5 41.74 21.00 53.99 49.44 47.97
o4-mini 47.00 25.50 58.28 58.33 50.41
GPT-5 🥈 50.90 38.00 57.67 51.67 61.79

Agentic 模型(准确率 %)

模型 总体 地点识别 空间推理 日常常识 科学常识
DeepEyes-7B 30.93 18.50 44.17 30.00 34.96
VLM-R3 33.18 19.00 42.33 36.11 39.84
TreeVGR-7B 27.78 14.00 40.49 27.18 33.33
REVPT 25.83 6.50 38.04 32.22 31.71
Thyme 46.25 69.00 42.33 29.44 39.02
PyVision 39.48 18.50 47.23 48.33 50.40

人类基准

总体 地点识别 空间推理 日常常识 科学常识
人类基线 45.50 19.33 70.67 40.00 52.00

主要发现

  1. 视觉线索识别是瓶颈:向模型提供真实线索可带来约10-15% 的准确率提升,表明失败常源于遗漏视觉语义而非推理能力不足。
  2. 视觉谄媚现象真实存在:来自其他模型的误导性文本线索可能覆盖模型自身的视觉判断并诱导幻觉。
  3. 线索引导的思维链始终优于普通思维链:明确强制视觉线索提取可作为关键锚点,缓解推理漂移。
  4. 最先进模型仍面临挑战:最佳模型(Gemini-2.5-Pro,56.90%)与提供真实线索时的理论上限之间仍存在较大差距。

引用

bibtex @article{dailyclue2026, title={Seek-and-Solve: Benchmarking MLLMs for Visual Clue-Driven Reasoning in Daily Scenarios}, author={Li, Xiaomin and Wang, Tala and Zhong, Zichen and Zhang, Ying and Zheng, Zirui and Isobe, Takashi and Li, Dezhuang and Lu, Huchuan and He, You and Jia, Xu}, journal={arXiv preprint arXiv:2604.14041}, year={2026} }

搜集汇总
数据集介绍
main_image_url
构建方式
DailyClue数据集围绕视觉线索驱动的日常推理这一核心目标精心构建。其构建过程严格遵循两项基本原则:一是数据来源必须植根于真实的日常活动场景,确保生态效度;二是问题设计需超越表层的感知理解,迫使模型主动搜寻并利用视觉线索进行深层推理。为此,研究团队从四大日常领域——常识推理、位置识别、空间推理与科学常识——中系统搜集图像与问题,共涵盖16个细分子任务,最终整理出666个高质量样本。每个样本均包含图像、问题、人工标注的视觉线索、标准答案及格式类型等信息,为多模态大模型的视觉线索推理能力评估提供了坚实基础。
特点
DailyClue数据集独具匠心,其最突出的特点在于对视觉线索驱动推理的深度聚焦。不同于现有基准测试多侧重知识记忆或感知理解,DailyClue的问题设计要求模型必须从图像噪声中甄别关键视觉线索,并以此作为推理依据,从而精准评估模型的线索识别与逻辑演绎能力。数据集涵盖四种答案格式——多项选择、是非判断、开放问答与位置识别——并提供了不同的提示模式,包括直接回答、标准思维链以及线索引导的思维链,以考察提示策略对推理效果的影响。此外,人工标注的视觉线索字段不仅支持揭示性实验,还能验证模型生成的线索是否与人类标注相吻合,为深入分析模型性能瓶颈提供了有力工具。
使用方法
使用DailyClue数据集进行模型评估的流程设计得既直观又灵活。用户首先通过Hugging Face平台下载数据集,并配置符合OpenAI接口标准的API密钥。随后,利用提供的推理脚本对选定模型执行推理任务,可选择多种提示模式(如直接模式、标准思维链模式或线索引导的思维链模式),以探究不同推理范式下的表现。推理结果以JSONL格式保存,接着通过评估脚本对模型输出进行自动化评分,其中开放性问题采用大语言模型裁判进行打分,多项选择与是非题则基于精确匹配。最终,汇总各模型的评估结果即可生成排行榜,便于横向比较不同多模态大模型在视觉线索推理任务上的能力差异。
背景与挑战
背景概述
DailyClue基准测试由大连理工大学、腾讯微信及清华大学的研究人员于2026年联合创建,旨在评估多模态大语言模型在日常生活场景中基于视觉线索进行的复杂推理能力。该数据集精心设计了666个涵盖四大日常领域与16项子任务的问题,要求模型从丰富的视觉信息中精准筛选关键线索并完成深层推理,而不仅仅是简单的感知或知识回忆。DailyClue的发布填补了现有基准在视觉线索驱动推理方面的空白,为衡量MLLMs在真实日常环境中的认知能力提供了关键标尺,其挑战性设置迫使模型超越表层理解,推动多模态领域向更高级的推理能力迈进。
当前挑战
DailyClue所解决的领域核心挑战在于,现有MLLMs基准主要评估模型的感知与知识储备,而缺乏对其在视觉噪声中主动定位并利用决定性线索进行逻辑推理能力的测试。构建过程中,研究团队面临两大挑战:一是确保所有场景严格源自真实的日常活动,避免合成或虚构案例;二是设计出的查询问题必须足够复杂,能有效区分基于线索的推理与表面模式识别,从而防止模型仅依赖语言先验或伪相关性给出答案。这些挑战使得DailyClue成为检验模型真正推理能力的严酷试金石。
常用场景
经典使用场景
DailyClue基准测试的核心应用场景在于评估多模态大语言模型在富含视觉线索的日常生活情境中进行深度推理的能力。通过涵盖日常常识推理、位置识别、空间推理和科学常识四大领域的精心设计任务,该数据集要求模型不仅仅停留在感知层面,而是必须主动从图像中挖掘关键视觉线索,并据此进行逻辑推理,以完成从简单的多项选择题到复杂的开放式问题的解答。这种设计使其成为检验模型在真实世界杂乱信息背景下,实现“寻求线索-解决问题”这一高级认知过程的经典工具。
衍生相关工作
围绕DailyClue数据集,已衍生出一系列重要的学术工作。其中,研究者提出的“线索引导的思维链”推理范式是对传统思维链方法的显著改进,它通过强制模型显式定位并输出关键视觉线索,有效抑制了推理漂移现象。此外,基于该数据集诞生的Agentic模型,如Thyme和PyVision,通过引入视觉线索搜索与验证机制,展现了超越传统静态模型的能力。这些衍生工作共同构筑了一个新的研究方向,即探索如何将视觉线索识别显式地整合进多模态模型的推理管线中,从而提升其在复杂视觉任务中的鲁棒性与准确性。
数据集最近研究
最新研究方向
DailyClue基准测试聚焦于多模态大语言模型在日常生活场景中基于视觉线索的推理能力评估,当前前沿研究方向主要围绕视觉线索识别瓶颈的突破。研究表明,即便最先进的闭源模型如Gemini-2.5-Pro也仅达到56.90%的准确率,与提供真实线索时的理论上限存在显著差距。该领域近期热点包括:探究视觉线索误导现象(Visual Sycophancy)及其引发的模型幻觉问题,以及提出线索引导思维链(Clue-guided CoT)范式以增强推理锚定效应。DailyClue通过构建涵盖日常常识、空间推理等领域共计666个问题的数据集,揭示了当前模型在视觉语义提取环节的薄弱本质——注入真实线索可使性能提升10-15个百分点,这一发现对推动多模态模型从表面感知向深度推理进化具有里程碑意义,直接关联到具身智能、自动驾驶等现实应用场景的可靠性突破。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作