five

RS-EoT-4K

收藏
Hugging Face2025-11-27 更新2025-11-28 收录
下载链接:
https://huggingface.co/datasets/ShaoRun/RS-EoT-4K
下载链接
链接失效反馈
官方服务:
资源简介:
RS-EoT-4K是一个专门设计用于遥感任务的多模态指令调整数据集,包含约4.3K个高质量推理样本,涵盖RGB、红外、SAR等多种模态。该数据集通过SocraticAgent多智能体系统生成,用于训练视觉语言模型以具备证据推理能力,解决遥感任务中的'一瞥效应'问题。

RS-EoT-4K is a multimodal instruction-tuning dataset specifically designed for remote sensing tasks, containing approximately 4.3K high-quality reasoning samples covering multiple modalities including RGB, infrared, SAR and others. This dataset is generated via the SocraticAgent multi-agent system, and is intended to train vision-language models to acquire evidential reasoning capabilities and solve the 'glimpse effect' problem in remote sensing tasks.
创建时间:
2025-11-25
原始信息汇总

RS-EoT-4K 数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 问答
  • 语言: 英语
  • 规模: 1K<n<10K

数据集简介

RS-EoT-4K 是一个专门为遥感任务设计的多模态指令调优数据集,旨在为视觉语言模型注入"思维证据"推理能力。该数据集通过解决遥感任务中普遍存在的"扫视效应"问题,确保模型进行真正的视觉检查而非简单叙述推理过程。

数据统计

数据集包含约 4.3K 个高质量推理样本,涵盖多种模态:

数据来源 模态 数量
FIT-RS RGB ~1.9K
VRSBench RGB ~1.1K
EarthVQA RGB ~0.6K
RSVQA RGB ~0.3K
Drone Vehicle RGB & 红外 ~0.2K
SARLang-1M SAR ~0.2K
总计 RGB/红外/SAR ~4.3K

生成方法

数据集采用苏格拉底代理多智能体框架生成:

  1. 推理器:基于任务查询提出感知问题以收集证据
  2. 感知器:对推理器的问题提供准确的视觉描述
  3. 验证器:根据真实答案验证最终回答,确保数据质量

用途

该数据集用于RS-EoT-7B模型的SFT冷启动阶段。

相关模型

  • RS-EoT-7B: https://huggingface.co/ShaoRun/RS-EoT-7B

使用方式

可通过Hugging Face datasets库直接加载: python import datasets data = datasets.load_dataset("ShaoRun/RS-EoT-4K")

引用

相关引用信息即将发布。

搜集汇总
数据集介绍
main_image_url
构建方式
在遥感视觉语言模型研究领域,RS-EoT-4K数据集通过创新的多智能体自演算框架SocraticAgent构建而成。该框架模拟苏格拉底式辩证思维,由文本推理器提出感知问题、视觉专家进行图像解析、验证器确保答案准确性,通过语言推导与视觉检验的交替循环生成高质量推理轨迹,有效解决了遥感任务中模型仅表面叙述而缺乏实质视觉验证的“一瞥效应”问题。
特点
作为专为遥感任务设计的多模态指令调优数据集,RS-EoT-4K囊括约4300条涵盖RGB、红外与合成孔径雷达等多模态的高质量推理样本。其独特价值在于融合六大权威遥感数据源,通过证据思维推理机制强化模型对复杂遥感场景的认知深度,为视觉语言模型提供了跨模态协同理解的训练范式。
使用方法
研究者可通过Hugging Face平台直接加载该数据集进行模型训练与验证。使用datasets库调用ShaoRun/RS-EoT-4K即可获取完整数据结构,支持对训练集样本的随机抽样与分析。该数据集专用于RS-EoT-7B模型的监督微调冷启动阶段,为开发具备迭代式证据搜寻能力的遥感视觉语言模型奠定基础。
背景与挑战
背景概述
在遥感视觉语言模型研究领域,模型常因浅层视觉理解而陷入'扫视效应'的困境。为突破这一瓶颈,研究团队于2024年提出RS-EoT-4K数据集,通过构建包含4300条多模态推理样本的语料库,覆盖可见光、红外与合成孔径雷达等遥感数据类型。该数据集依托苏格拉底式对话机制开发,旨在培养模型基于视觉证据的深度推理能力,为遥感图像理解任务树立了新的基准。
当前挑战
构建过程中面临多源异构数据融合的技术挑战,需协调六种不同采集标准的遥感数据集实现模态对齐。核心难题在于突破模型伪推理现象,通过设计感知者-推理者双代理框架确保视觉验证与逻辑推导的闭环。在领域层面,需解决多模态遥感数据中语义鸿沟问题,使模型能从像素级特征推导出高层语义理解,这对跨模态表征学习提出严格要求。
常用场景
经典使用场景
在遥感图像分析领域,RS-EoT-4K数据集被广泛用于训练视觉语言模型进行多模态推理任务。该数据集通过模拟苏格拉底式对话机制,引导模型对RGB、红外和合成孔径雷达等多源遥感数据展开渐进式视觉探查与逻辑推演,有效克服了传统方法中模型仅依赖表面特征描述的局限性,为复杂场景理解提供了结构化思维范本。
解决学术问题
该数据集主要针对遥感任务中普遍存在的'一瞥效应'难题,即模型未经深入视觉检验便仓促生成推理解释的现象。通过构建包含4300条高质量推理链的标注数据,它系统性地提升了视觉语言模型在遥感图像理解中的证据追溯能力,为多模态认知计算领域建立了可验证的推理评估基准。
衍生相关工作
基于该数据集衍生的RS-EoT-7B模型已成为遥感多模态推理的重要基线,其创新的SocraticAgent架构启发了后续诸多研究工作。相关方法论被扩展应用于海洋监测、农业遥感等垂直领域,推动了自监督推理、多智能体协同等技术在遥感人工智能中的融合发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作