DailyClue
收藏DailyClue Benchmark 数据集详情
数据集简介
DailyClue 是一个专为日常场景中的视觉线索驱动推理而设计的基准数据集,旨在评估多模态大语言模型(MLLMs)在丰富视觉环境中过滤噪声、识别关键视觉线索并进行准确推理的能力。该数据集由大连理工大学、腾讯微信和清华大学的研究团队联合构建。
数据集规模与结构
数据统计
| 类别 | 问题数量 | 格式 |
|---|---|---|
| 日常常识推理(Daily Commonsense Reasoning) | 180 | 多项选择、是否题、开放式 |
| 地点识别(Location Identification) | 200 | 开放式(国家、地区) |
| 空间推理(Spatial Reasoning) | 163 | 多项选择、是否题 |
| 科学常识(Scientific Commonsense) | 123 | 多项选择、是否题、开放式 |
| 总计 | 666 | — |
数据字段说明
每条样本包含以下字段:
| 字段 | 类型 | 描述 |
|---|---|---|
image |
list[str] |
关联图像的的文件名 |
question |
str |
待回答问题 |
clues |
str |
人工标注的真实视觉线索 |
ground_truth |
str |
正确答案 |
format |
str |
答案格式(多项选择/是否题/开放式) |
category_1 |
str |
主要类别(四大领域之一) |
category_2 |
str |
子任务 |
language |
str |
问题语言(英文) |
数据集目录结构
dailyclue/ ├── dataset/ │ ├── daily_life/ # 日常常识推理图像 │ ├── location/ # 地点识别图像 │ ├── science/ # 科学常识图像 │ ├── spatial/ # 空间推理图像 │ ├── daily_life.json # 日常常识推理注释 │ ├── location.json # 地点识别注释 │ ├── science.json # 科学常识注释 │ └── spatial.json # 空间推理注释 ├── infer/ │ └── inference.py # 推理脚本 ├── eval/ │ └── eval.py # 评估脚本 ├── tools/ │ └── generate_leaderboard.py # 生成排行榜 ├── run_demo.sh # 一键演示脚本 ├── requirements.txt └── README.md
数据集访问
- GitHub 仓库: https://github.com/xiaominli1020/DailyClue
- Hugging Face 数据集: https://huggingface.co/datasets/Crysun/DailyClue
模型性能排行榜
开源 MLLMs(准确率 %)
| 模型 | 总体 | 地点识别 | 空间推理 | 日常常识 | 科学常识 |
|---|---|---|---|---|---|
| LLaVA-OneVision-7B | 24.47 | 10.50 | 34.97 | 25.56 | 31.71 |
| LLaVA-OneVision-72B | 33.18 | 15.50 | 47.85 | 33.33 | 42.28 |
| LLaVA-OV-1.5-8B-Instruct | 29.43 | 10.50 | 47.85 | 27.78 | 38.21 |
| InternVL3-8B | 31.08 | 13.50 | 31.67 | 31.67 | 41.46 |
| InternVL3-38B | 36.94 | 17.00 | 47.85 | 47.22 | 39.84 |
| InternVL3-78B | 40.84 | 18.00 | 54.60 | 52.78 | 42.28 |
| InternVL-3.5-38B | 36.91 | 14.00 | 49.69 | 43.33 | 43.90 |
| Qwen2.5-VL-7B | 30.63 | 15.00 | 39.88 | 37.22 | 34.15 |
| Qwen2.5-VL-32B | 35.59 | 21.50 | 42.94 | 42.78 | 38.21 |
| Qwen2.5-VL-72B | 40.84 | 24.50 | 47.85 | 48.33 | 47.15 |
| Qwen3-VL-235B-A22B-Thinking | 44.59 | 23.00 | 49.08 | 56.67 | 56.10 |
| Qwen3-VL-235B-A22B-Instruct | 40.69 | 22.50 | 46.63 | 50.00 | 48.78 |
闭源 MLLMs(准确率 %)
| 模型 | 总体 | 地点识别 | 空间推理 | 日常常识 | 科学常识 |
|---|---|---|---|---|---|
| Gemini-2.5-Flash 🥉 | 50.00 | 32.50 | 55.83 | 59.44 | 56.91 |
| Gemini-2.5-Pro 🥇 | 56.90 | 41.50 | 61.35 | 62.77 | 67.48 |
| Claude-3.7-Sonnet | 41.14 | 18.50 | 57.06 | 47.22 | 47.97 |
| Claude-sonnet-4 | 41.74 | 22.00 | 52.15 | 48.89 | 49.59 |
| Claude-sonnet-4.5 | 41.74 | 21.00 | 53.99 | 49.44 | 47.97 |
| o4-mini | 47.00 | 25.50 | 58.28 | 58.33 | 50.41 |
| GPT-5 🥈 | 50.90 | 38.00 | 57.67 | 51.67 | 61.79 |
Agentic 模型(准确率 %)
| 模型 | 总体 | 地点识别 | 空间推理 | 日常常识 | 科学常识 |
|---|---|---|---|---|---|
| DeepEyes-7B | 30.93 | 18.50 | 44.17 | 30.00 | 34.96 |
| VLM-R3 | 33.18 | 19.00 | 42.33 | 36.11 | 39.84 |
| TreeVGR-7B | 27.78 | 14.00 | 40.49 | 27.18 | 33.33 |
| REVPT | 25.83 | 6.50 | 38.04 | 32.22 | 31.71 |
| Thyme | 46.25 | 69.00 | 42.33 | 29.44 | 39.02 |
| PyVision | 39.48 | 18.50 | 47.23 | 48.33 | 50.40 |
人类基准
| 总体 | 地点识别 | 空间推理 | 日常常识 | 科学常识 | |
|---|---|---|---|---|---|
| 人类基线 | 45.50 | 19.33 | 70.67 | 40.00 | 52.00 |
主要发现
- 视觉线索识别是瓶颈:向模型提供真实线索可带来约10-15% 的准确率提升,表明失败常源于遗漏视觉语义而非推理能力不足。
- 视觉谄媚现象真实存在:来自其他模型的误导性文本线索可能覆盖模型自身的视觉判断并诱导幻觉。
- 线索引导的思维链始终优于普通思维链:明确强制视觉线索提取可作为关键锚点,缓解推理漂移。
- 最先进模型仍面临挑战:最佳模型(Gemini-2.5-Pro,56.90%)与提供真实线索时的理论上限之间仍存在较大差距。
引用
bibtex @article{dailyclue2026, title={Seek-and-Solve: Benchmarking MLLMs for Visual Clue-Driven Reasoning in Daily Scenarios}, author={Li, Xiaomin and Wang, Tala and Zhong, Zichen and Zhang, Ying and Zheng, Zirui and Isobe, Takashi and Li, Dezhuang and Lu, Huchuan and He, You and Jia, Xu}, journal={arXiv preprint arXiv:2604.14041}, year={2026} }




