five

GRE30K

收藏
github2025-05-28 更新2025-06-09 收录
下载链接:
https://github.com/Thorin215/GRE
下载链接
链接失效反馈
官方服务:
资源简介:
GRE30K是一个地理定位推理数据集,旨在增强MLLMs的视觉推理能力。具体来说,GRE30K由GRE30K-CoT用于冷启动初始化和GRE30K-Judge用于强化学习。

GRE30K is a geolocation reasoning dataset designed to enhance the visual reasoning capabilities of ML Large Language Models (MLLLMs). Specifically, GRE30K is used for cold-start initialization by GRE30K-CoT and for reinforcement learning by GRE30K-Judge.
创建时间:
2025-05-09
原始信息汇总

GRE Suite 数据集概述

数据集简介

GRE Suite 是一个通过微调视觉语言模型和增强推理链来进行地理定位推断的工具套件,包含三个主要组件:

  • GRE30K数据集:增强MLLMs视觉推理能力的geo-localization推理数据集
  • GRE模型:采用多阶段推理策略的地理定位推理模型
  • GREval-Bench基准:评估模型地理定位能力的基准测试

数据集组件详情

1. GRE30K数据集

  • 组成
    • GRE30K-CoT:用于冷启动初始化
    • GRE30K-Judge:用于强化学习
    • GRE30K-Seed:基础指令数据
  • 数据格式
    • 包含图像路径、对话记录(人类指令和GPT响应)、经纬度坐标
    • 三种子集分别采用不同格式的JSON结构
  • 获取地址:https://huggingface.co/datasets/Anonymous0515/GRE30K

2. GRE模型

  • 基础模型:基于Qwen2.5-VL-7B-Instruct
  • 训练阶段
    1. 冷启动初始化阶段
    2. 强化学习阶段I
    3. 强化学习阶段II
  • 模型检查点
    • GRE-7B
    • GRE-7B-CI
    • GRE-7B-RL-I
  • 获取地址:https://huggingface.co/Anonymous0515/GRE

3. GREval-Bench基准

  • 评估内容
    • 定位性能
    • 推理链质量
  • 特点
    • 半自动化流程收集地理信息图像
    • 提供带注释的推理链步骤和参考GPS坐标
  • 获取地址:https://huggingface.co/datasets/Anonymous0515/GREval-Bench

性能表现

  • 在Im2GPS3k和GWS15k基准测试中全面超越之前的最先进模型
  • 在不同距离阈值(1km-2500km)上实现0.5%-4.2%的性能提升
  • 在GREval-Bench上与InternVL、Qwen2.5-VL等通用模型相比展现出优势

使用要求

  • Python >= 3.8
  • Pytorch >= 2.5.0
  • CUDA >= 11.8
  • transformers == 4.40.0
  • tokenizers == 0.19.1
搜集汇总
数据集介绍
main_image_url
构建方式
GRE30K数据集作为地理定位推理领域的专业数据集,其构建过程融合了多模态学习与结构化推理链的创新方法。数据集采用三阶段构建策略:首先通过GRE30K-CoT模块实现冷启动初始化,收集带有思维链标注的地理图像数据;其次利用GRE30K-Judge模块进行强化学习阶段的样本筛选;最后通过GRE30K-Seed模块整合原始地理定位指令数据。每个样本均包含高分辨率图像、多轮对话标注及精确的GPS坐标,确保数据的地理信息准确性和推理逻辑完整性。
特点
该数据集最显著的特点是实现了视觉-语言模态的深度融合与地理推理能力的协同提升。GRE30K包含30,000个地理定位样本,每个样本均配备详尽的思维链标注和判断指令,支持从场景属性识别到地理坐标推导的多层次推理。数据覆盖全球范围的地理特征,包含显性和隐性地理标识,且通过半自动化流程确保标注质量。特别设计的JSON数据结构支持端到端模型训练,其多阶段数据划分方式为模型冷启动和强化学习提供了完整支持。
使用方法
使用该数据集需遵循其模块化设计逻辑。研究人员可通过Hugging Face平台直接加载预处理好的数据集,按照GRE30K-CoT、GRE30K-Judge和GRE30K-Seed三个子集分别调用。典型使用流程包括:加载Qwen2.5-VL-7B-Instruct作为基础模型,通过infer.ipynb脚本实现图像地理定位推理;或参照training.md文档进行三阶段训练,依次完成冷启动初始化、强化学习阶段I和II。评估时需结合GREval-Bench基准,同时考量定位精度和思维链质量两个维度。
背景与挑战
背景概述
GRE30K数据集作为地理定位推理领域的重要资源,由匿名研究团队于近期发布,旨在通过细粒度视觉语言模型和增强推理链提升地理定位的准确性与可解释性。该数据集隶属于GRE Suite项目,包含GRE30K-CoT和GRE30K-Judge两个子集,分别服务于冷启动初始化和强化学习阶段,其构建基于多模态大语言模型Qwen2.5-VL-7B-Instruct的微调框架。该数据集的创新性体现在通过结构化推理链解析图像中的显性与隐性地理标识,显著推动了场景属性推理、局部细节分析和语义特征关联等核心研究问题的发展,并在Im2GPS3k等基准测试中实现了最高达4.2%的性能突破。
当前挑战
地理定位推理面临双重技术挑战:在领域问题层面,图像中地理标识的稀疏性与语义模糊性导致传统模型难以建立视觉特征与经纬度坐标的精确映射,而跨地域文化差异更增加了场景理解的复杂度;在数据集构建层面,需解决多阶段标注一致性难题——既要保证30,000余样本中推理链的逻辑连贯性,又需协调人工标注与半自动管道生成的GPS坐标精度,同时维持冷启动数据与强化学习数据的分布平衡。此外,评估基准GREval-Bench需设计兼顾距离阈值适应性与推理链质量评估的复合指标,这对验证模型的渐进式推理能力提出了更高要求。
常用场景
经典使用场景
GRE30K数据集在视觉语言模型(VLM)的微调和推理链增强方面展现了卓越的应用价值。通过结合GRE30K-CoT和GRE30K-Judge两个子集,该数据集为多模态大语言模型(MLLM)提供了丰富的训练和验证场景,使其能够逐步推断场景属性、局部细节和语义特征,从而精确缩小地理定位范围。这一过程不仅提升了模型的推理能力,还增强了其在实际应用中的泛化性能。
衍生相关工作
GRE30K数据集的推出催生了一系列相关研究,包括基于多阶段推理策略的GRE模型和半自动化标注的GREval-Bench基准测试。这些工作不仅进一步提升了地理定位的精度和效率,还为视觉语言模型在其他领域的应用提供了新的思路和方法。
数据集最近研究
最新研究方向
随着多模态大语言模型(MLLMs)在视觉推理领域的快速发展,GRE30K数据集作为地理定位推理任务的重要资源,正推动着该领域的前沿研究。该数据集通过结构化推理链的设计,显著提升了模型在复杂场景下的地理定位能力。近期研究聚焦于如何将视觉语言模型(VLMs)与增强推理链相结合,以实现更精确和可解释的位置推断。GRE30K-CoT和GRE30K-Judge两个子集分别针对冷启动初始化和强化学习场景,为模型训练提供了全面支持。在基准测试中,基于GRE30K训练的模型在多个距离阈值下均超越了现有最优性能,展现出在地理定位任务中的巨大潜力。这一进展不仅为自动驾驶、增强现实等应用提供了技术支持,也为多模态推理研究开辟了新的方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作