DailyClue

github2026-05-05 更新2026-05-14 收录

下载链接：

https://github.com/xiaominli1020/DailyClue

下载链接

链接失效反馈

官方服务：

资源简介：

DailyClue是一个用于日常场景中视觉线索驱动推理的基准数据集，旨在评估多模态大语言模型在过滤噪声并识别关键视觉线索以进行准确推理的能力。数据集涵盖4个主要日常领域和16个子任务，包含666个问题，格式包括多项选择、是/否和开放式回答。每个样本包括图像、问题、人类标注的视觉线索、正确答案、回答格式和类别信息。

DailyClue is a benchmark dataset for visual cue-driven reasoning in daily scenarios, aiming to evaluate the capability of multimodal large language models (LLMs) to filter out noise and identify critical visual cues for accurate reasoning. The dataset covers four major daily domains and 16 subtasks, containing 666 questions in formats including multiple choice, yes/no, and open-ended responses. Each sample includes an image, a question, human-annotated visual cues, the correct answer, answer format, and category information.

创建时间：

2026-05-05

原始信息汇总

DailyClue Benchmark 数据集详情

数据集简介

DailyClue 是一个专为日常场景中的视觉线索驱动推理而设计的基准数据集，旨在评估多模态大语言模型（MLLMs）在丰富视觉环境中过滤噪声、识别关键视觉线索并进行准确推理的能力。该数据集由大连理工大学、腾讯微信和清华大学的研究团队联合构建。

数据集规模与结构

数据统计

类别	问题数量	格式
日常常识推理（Daily Commonsense Reasoning）	180	多项选择、是否题、开放式
地点识别（Location Identification）	200	开放式（国家、地区）
空间推理（Spatial Reasoning）	163	多项选择、是否题
科学常识（Scientific Commonsense）	123	多项选择、是否题、开放式
总计	666	—

数据字段说明

每条样本包含以下字段：

字段	类型	描述
`image`	`list[str]`	关联图像的的文件名
`question`	`str`	待回答问题
`clues`	`str`	人工标注的真实视觉线索
`ground_truth`	`str`	正确答案
`format`	`str`	答案格式（多项选择/是否题/开放式）
`category_1`	`str`	主要类别（四大领域之一）
`category_2`	`str`	子任务
`language`	`str`	问题语言（英文）

数据集目录结构

dailyclue/ ├── dataset/ │ ├── daily_life/ # 日常常识推理图像 │ ├── location/ # 地点识别图像 │ ├── science/ # 科学常识图像 │ ├── spatial/ # 空间推理图像 │ ├── daily_life.json # 日常常识推理注释 │ ├── location.json # 地点识别注释 │ ├── science.json # 科学常识注释 │ └── spatial.json # 空间推理注释 ├── infer/ │ └── inference.py # 推理脚本 ├── eval/ │ └── eval.py # 评估脚本 ├── tools/ │ └── generate_leaderboard.py # 生成排行榜 ├── run_demo.sh # 一键演示脚本 ├── requirements.txt └── README.md

数据集访问

GitHub 仓库: https://github.com/xiaominli1020/DailyClue
Hugging Face 数据集: https://huggingface.co/datasets/Crysun/DailyClue

模型性能排行榜

开源 MLLMs（准确率 %）

模型	总体	地点识别	空间推理	日常常识	科学常识
LLaVA-OneVision-7B	24.47	10.50	34.97	25.56	31.71
LLaVA-OneVision-72B	33.18	15.50	47.85	33.33	42.28
LLaVA-OV-1.5-8B-Instruct	29.43	10.50	47.85	27.78	38.21
InternVL3-8B	31.08	13.50	31.67	31.67	41.46
InternVL3-38B	36.94	17.00	47.85	47.22	39.84
InternVL3-78B	40.84	18.00	54.60	52.78	42.28
InternVL-3.5-38B	36.91	14.00	49.69	43.33	43.90
Qwen2.5-VL-7B	30.63	15.00	39.88	37.22	34.15
Qwen2.5-VL-32B	35.59	21.50	42.94	42.78	38.21
Qwen2.5-VL-72B	40.84	24.50	47.85	48.33	47.15
Qwen3-VL-235B-A22B-Thinking	44.59	23.00	49.08	56.67	56.10
Qwen3-VL-235B-A22B-Instruct	40.69	22.50	46.63	50.00	48.78

闭源 MLLMs（准确率 %）

模型	总体	地点识别	空间推理	日常常识	科学常识
Gemini-2.5-Flash 🥉	50.00	32.50	55.83	59.44	56.91
Gemini-2.5-Pro 🥇	56.90	41.50	61.35	62.77	67.48
Claude-3.7-Sonnet	41.14	18.50	57.06	47.22	47.97
Claude-sonnet-4	41.74	22.00	52.15	48.89	49.59
Claude-sonnet-4.5	41.74	21.00	53.99	49.44	47.97
o4-mini	47.00	25.50	58.28	58.33	50.41
GPT-5 🥈	50.90	38.00	57.67	51.67	61.79

Agentic 模型（准确率 %）

模型	总体	地点识别	空间推理	日常常识	科学常识
DeepEyes-7B	30.93	18.50	44.17	30.00	34.96
VLM-R3	33.18	19.00	42.33	36.11	39.84
TreeVGR-7B	27.78	14.00	40.49	27.18	33.33
REVPT	25.83	6.50	38.04	32.22	31.71
Thyme	46.25	69.00	42.33	29.44	39.02
PyVision	39.48	18.50	47.23	48.33	50.40

人类基准

	总体	地点识别	空间推理	日常常识	科学常识
人类基线	45.50	19.33	70.67	40.00	52.00

主要发现

视觉线索识别是瓶颈：向模型提供真实线索可带来约10-15% 的准确率提升，表明失败常源于遗漏视觉语义而非推理能力不足。
视觉谄媚现象真实存在：来自其他模型的误导性文本线索可能覆盖模型自身的视觉判断并诱导幻觉。
线索引导的思维链始终优于普通思维链：明确强制视觉线索提取可作为关键锚点，缓解推理漂移。
最先进模型仍面临挑战：最佳模型（Gemini-2.5-Pro，56.90%）与提供真实线索时的理论上限之间仍存在较大差距。

引用

bibtex @article{dailyclue2026, title={Seek-and-Solve: Benchmarking MLLMs for Visual Clue-Driven Reasoning in Daily Scenarios}, author={Li, Xiaomin and Wang, Tala and Zhong, Zichen and Zhang, Ying and Zheng, Zirui and Isobe, Takashi and Li, Dezhuang and Lu, Huchuan and He, You and Jia, Xu}, journal={arXiv preprint arXiv:2604.14041}, year={2026} }

搜集汇总

数据集介绍

构建方式

DailyClue数据集围绕视觉线索驱动的日常推理这一核心目标精心构建。其构建过程严格遵循两项基本原则：一是数据来源必须植根于真实的日常活动场景，确保生态效度；二是问题设计需超越表层的感知理解，迫使模型主动搜寻并利用视觉线索进行深层推理。为此，研究团队从四大日常领域——常识推理、位置识别、空间推理与科学常识——中系统搜集图像与问题，共涵盖16个细分子任务，最终整理出666个高质量样本。每个样本均包含图像、问题、人工标注的视觉线索、标准答案及格式类型等信息，为多模态大模型的视觉线索推理能力评估提供了坚实基础。

特点

DailyClue数据集独具匠心，其最突出的特点在于对视觉线索驱动推理的深度聚焦。不同于现有基准测试多侧重知识记忆或感知理解，DailyClue的问题设计要求模型必须从图像噪声中甄别关键视觉线索，并以此作为推理依据，从而精准评估模型的线索识别与逻辑演绎能力。数据集涵盖四种答案格式——多项选择、是非判断、开放问答与位置识别——并提供了不同的提示模式，包括直接回答、标准思维链以及线索引导的思维链，以考察提示策略对推理效果的影响。此外，人工标注的视觉线索字段不仅支持揭示性实验，还能验证模型生成的线索是否与人类标注相吻合，为深入分析模型性能瓶颈提供了有力工具。

使用方法

使用DailyClue数据集进行模型评估的流程设计得既直观又灵活。用户首先通过Hugging Face平台下载数据集，并配置符合OpenAI接口标准的API密钥。随后，利用提供的推理脚本对选定模型执行推理任务，可选择多种提示模式（如直接模式、标准思维链模式或线索引导的思维链模式），以探究不同推理范式下的表现。推理结果以JSONL格式保存，接着通过评估脚本对模型输出进行自动化评分，其中开放性问题采用大语言模型裁判进行打分，多项选择与是非题则基于精确匹配。最终，汇总各模型的评估结果即可生成排行榜，便于横向比较不同多模态大模型在视觉线索推理任务上的能力差异。

背景与挑战

背景概述

DailyClue基准测试由大连理工大学、腾讯微信及清华大学的研究人员于2026年联合创建，旨在评估多模态大语言模型在日常生活场景中基于视觉线索进行的复杂推理能力。该数据集精心设计了666个涵盖四大日常领域与16项子任务的问题，要求模型从丰富的视觉信息中精准筛选关键线索并完成深层推理，而不仅仅是简单的感知或知识回忆。DailyClue的发布填补了现有基准在视觉线索驱动推理方面的空白，为衡量MLLMs在真实日常环境中的认知能力提供了关键标尺，其挑战性设置迫使模型超越表层理解，推动多模态领域向更高级的推理能力迈进。

当前挑战

DailyClue所解决的领域核心挑战在于，现有MLLMs基准主要评估模型的感知与知识储备，而缺乏对其在视觉噪声中主动定位并利用决定性线索进行逻辑推理能力的测试。构建过程中，研究团队面临两大挑战：一是确保所有场景严格源自真实的日常活动，避免合成或虚构案例；二是设计出的查询问题必须足够复杂，能有效区分基于线索的推理与表面模式识别，从而防止模型仅依赖语言先验或伪相关性给出答案。这些挑战使得DailyClue成为检验模型真正推理能力的严酷试金石。

常用场景

经典使用场景

DailyClue基准测试的核心应用场景在于评估多模态大语言模型在富含视觉线索的日常生活情境中进行深度推理的能力。通过涵盖日常常识推理、位置识别、空间推理和科学常识四大领域的精心设计任务，该数据集要求模型不仅仅停留在感知层面，而是必须主动从图像中挖掘关键视觉线索，并据此进行逻辑推理，以完成从简单的多项选择题到复杂的开放式问题的解答。这种设计使其成为检验模型在真实世界杂乱信息背景下，实现“寻求线索-解决问题”这一高级认知过程的经典工具。

衍生相关工作

围绕DailyClue数据集，已衍生出一系列重要的学术工作。其中，研究者提出的“线索引导的思维链”推理范式是对传统思维链方法的显著改进，它通过强制模型显式定位并输出关键视觉线索，有效抑制了推理漂移现象。此外，基于该数据集诞生的Agentic模型，如Thyme和PyVision，通过引入视觉线索搜索与验证机制，展现了超越传统静态模型的能力。这些衍生工作共同构筑了一个新的研究方向，即探索如何将视觉线索识别显式地整合进多模态模型的推理管线中，从而提升其在复杂视觉任务中的鲁棒性与准确性。

数据集最近研究