SeekWorld
收藏github2025-04-20 更新2025-04-21 收录
下载链接:
https://github.com/TheEighthDay/SeekWorld
下载链接
链接失效反馈官方服务:
资源简介:
我们引入了一个名为地理定位推理的新任务。该任务要求模型在感知视觉信息的同时,通过视觉语义中的高级逻辑关系进行推理,最终确定正确的位置,使其成为类似o3的视觉线索跟踪推理的完美候选。数据集包括两个训练集:一个(Train-Clue-Tracking)包含50个(正在扩展中)从o3收集的视觉线索跟踪推理过程的详细示例,另一个(Train-No-Process)包含8541个没有视觉线索跟踪推理的数据点。前者用于冷启动SFT训练,后者用于RL训练。此外,还有两个测试集用于全面评估。
We introduce a novel task named Geolocation Reasoning. This task requires models to perceive visual information, perform reasoning through high-level logical relationships within visual semantics, and ultimately determine the correct location, making it an ideal candidate for visual clue-tracking reasoning similar to O3. The dataset includes two training sets: one (Train-Clue-Tracking) containing 50 (under ongoing expansion) detailed examples of visual clue-tracking reasoning processes collected from O3, and the other (Train-No-Process) containing 8,541 data points without visual clue-tracking reasoning processes. The former is utilized for cold-start SFT training, while the latter is employed for RL training. Additionally, two test sets are provided for comprehensive evaluation.
创建时间:
2025-04-20
原始信息汇总
SeekWorld 数据集概述
数据集简介
SeekWorld 是一个专注于地理定位推理(Geolocation Reasoning)的数据集,旨在模拟类似 o3 模型的视觉线索追踪推理能力。该任务要求模型在感知视觉信息的同时,通过高级逻辑关系进行推理,最终确定正确的地理位置。
数据集特点
- 视觉线索追踪过程:首个包含 o3 模型视觉推理链或视觉线索追踪能力的数据集。
- 全球多样化采样:包含来自世界各地的多样化场景,确保模型能够适应不同文化、地形和环境背景。
- 优化图像-标签对:清理了带有位置水印的图像,并为地理坐标的行政区域提供了别名,以防止模型误解。
- 分层难度架构:包含三个推理难度级别(简单、中等、困难),旨在逐步挑战和评估模型的地理定位能力。
数据集组成
| 数据集 | 数据量 | 来源 |
|---|---|---|
| Train-Clue-Tracking | 50(持续扩展中) | 从 o3 收集的视觉线索追踪推理过程 |
| Train-No-Process | 8541(1945简单-941中等-5655困难) | 近年来的 Google 地图全景图和用户上传图像 |
| Global-Test | 320 | 近年来的 Google 地图全景图和用户上传图像 |
| China-Test | 373 | 2025年4月14日收集的最新小红书 App 图像,几乎不可能被预训练 |
性能评估
大型模型
| 模型 | Global-Test | China-Test | 总体准确率 |
|---|---|---|---|
| GPT4o-240806 | 56.50 | 31.90 | 43.26 |
| Doubao-1.5-vision-pro-32k-250115 | 43.75 | 40.48 | 41.99 |
| Gemini-2.0-flash-thinking-exp-01-21 | 56.25 | 29.49 | 41.85 |
| QvQ-72B-max-2025-03-25 | 48.13 | 31.63 | 39.25 |
| Qwen-2.5-32B-VL | 38.12 | 24.13 | 30.59 |
小型模型(7B)
| 模型 | Global-Test | China-Test | 总体准确率 |
|---|---|---|---|
| SeekWorld-7B [Cold-Start SFT + RL] | - | - | - |
| SeekWorld-7B [Direct RL] | 59.69 | 34.65 | 46.21 |
| Qwen-2.5-7B-VL [Direct RL] | 51.25 | 31.90 | 40.84 |
| Qwen-2.5-7B-VL [Direct SFT] | 37.19 | 25.47 | 30.88 |
| Qwen-2.5-7B-VL | 33.44 | 24.40 | 28.57 |
| Qwen-2.5-7B-VL + CoT | 25.31 | 21.45 | 23.23 |
未来工作
- 进一步扩展 Cold-Start SFT Train-Clue-Tracking 数据集的规模。
- 完成 Cold-Start SFT (Train-Clue-Tracking) + RL (Train-No-Process) 训练,以复制类似 o3 的视觉线索追踪能力。
- 评估 o3 在 SeekWorld 上的表现。
- 评估在其他感知和推理基准上的表现。
相关资源
- 数据集地址: https://huggingface.co/datasets/TheEighthDay/SeekWorld
- 模型地址: https://huggingface.co/TheEighthDay/SeekWorld_RL_PLUS
- 在线演示: https://huggingface.co/spaces/TheEighthDay/SeekWorld_APP
搜集汇总
数据集介绍

构建方式
在视觉推理领域,SeekWorld数据集通过创新的规则化强化学习框架构建而成。其核心由两部分训练集组成:Train-Clue-Tracking子集精心收集了50个具有完整视觉线索追踪推理链的范例,完整复现了o3模型的动态推理过程;Train-No-Process子集则包含8541个经过严格清洗的地理位置图像-标签对,数据源自近年谷歌地图的全景图像和用户上传内容,并采用分层抽样策略确保难度均衡。测试集特别设置了中国专区和全球专区,其中中国测试集采用小红书平台最新图像以规避预训练污染。
特点
该数据集开创性地实现了视觉线索追踪能力的标准化封装,其特色体现在三维度架构:地理维度覆盖全球多样化场景,消除文化地域偏差;推理维度设置易中难三级挑战,支持渐进式能力评估;技术维度优化标注体系,清除定位水印并提供行政区划别名映射。特别设计的中国测试集包含373张时效性极强的社交平台图像,为模型泛化能力提供严苛测试环境。
使用方法
使用该数据集需遵循两阶段训练范式:首先基于Train-Clue-Tracking进行冷启动监督微调,掌握视觉线索追踪的基础推理模式;继而通过强化学习在Train-No-Process上优化决策能力。评估时建议采用分层测试策略,先以320例全球测试集检验跨文化推理能力,再通过中国专测集验证对新颖数据的适应力。官方提供基于Qwen2.5-7B-VL的训练脚本和在线演示平台,支持终端用户通过transformers库快速部署推理管线。
背景与挑战
背景概述
SeekWorld数据集由TheEighthDay团队于2025年4月发布,旨在推动多模态大语言模型(MLLMs)在视觉线索追踪推理领域的发展。该数据集的核心研究问题聚焦于地理定位推理任务,要求模型通过视觉语义中的高级逻辑关系进行推理,最终确定正确的地理位置。受OpenAI的ChatGPT-o3动态图像推理能力启发,研究团队创新性地构建了包含视觉线索追踪链的强化学习数据集,其独特价值在于首次系统性地复现了o3模型的视觉推理过程。该数据集通过全球多样化采样和分层难度架构,为提升模型的跨文化场景理解能力提供了重要基准,对计算机视觉与自然语言处理的交叉研究具有显著推动作用。
当前挑战
构建SeekWorld数据集面临双重挑战。在领域问题层面,地理定位任务要求模型具备从复杂视觉场景中提取文化符号、建筑特征等隐含线索的能力,并建立多模态关联推理链条,这对传统视觉问答系统提出了更高层次的认知要求。在技术实现层面,研究团队需解决三大难题:如何从o3模型中提取有效的视觉线索追踪过程以构建冷启动微调数据集;如何清洗谷歌地图全景图像中的位置水印等干扰信息;以及如何设计兼顾推理难度与地域平衡性的强化学习奖励机制。这些挑战使得数据集的构建过程兼具算法复杂性和工程严谨性。
常用场景
经典使用场景
在视觉推理领域,SeekWorld数据集为多模态大语言模型提供了独特的视觉线索追踪推理能力训练平台。该数据集通过地理定位任务,模拟人类观察环境细节、提取视觉线索并逐步推理的认知过程,尤其擅长训练模型从街景图像中识别地域特征。其分层难度架构支持从基础场景识别到复杂文化特征分析的渐进式学习,为视觉-语言联合推理研究树立了新范式。
实际应用
在实际应用层面,SeekWorld支撑的模型可广泛应用于智能导航系统、文化遗产数字化保护等领域。基于街景图像的自动地域识别技术可增强AR导航的场景感知能力,而其对传统建筑风格的识别精度有助于文物建筑的自动化建档。旅游行业亦可借助该技术开发智能导览系统,通过实时图像分析为游客提供地域文化解说。
衍生相关工作
该数据集已催生多项视觉定位领域的创新研究,包括基于强化学习的动态视觉注意力机制(LMM-R1)和分层难度自适应训练框架(Reinforce++)。其衍生的SeekWorld-7B模型在开源社区引发了对小型模型视觉推理能力的重新评估,相关技术已被迁移至遥感图像分析、犯罪现场重建等跨领域任务,形成了一系列视觉线索追踪的技术谱系。
以上内容由遇见数据集搜集并总结生成



