Earth-Science Text QA Dataset

github2026-02-22 更新2026-02-23 收录

下载链接：

https://github.com/MiliLab/Text-Before-Vision

下载链接

链接失效反馈

官方服务：

资源简介：

我们构建了一个大规模、领域专业化的文本问答数据集，使用了一个完全自动化的流程和主动预防性验证。数据生成过程（图2）利用了一个知识图谱（通过LightRAG构建）在生成前过滤幻觉。

We constructed a large-scale, domain-specialized text question answering (QA) dataset using a fully automated pipeline and proactive preventive validation. The data generation process (Figure 2) utilizes a knowledge graph constructed via LightRAG to filter out hallucinations prior to generation.

创建时间：

2026-02-14

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Text-Before-Vision
核心领域: 地球科学文本问答、超高分辨率（UHR）遥感理解
数据集规模: 包含 148,777 个高质量的文本思维链（CoT）问答对
数据来源: 基于8.8k本教科书和200k篇科学论文构建，并通过特定领域知识图谱进行严格验证

数据集内容与统计

总问答对数量: 148,777
平均问题长度: 64.0个词元
平均思维链与答案长度: 256.9个词元
平均推理步骤: 2.6步
问题类型分布:
- 多项选择题（MCQ）: 24%
- 填空题（Fill）: 7%
- 判断题（T/F）: 4%
- 自由形式问题（Free-form）: 65%

数据集构建方法

构建流程: 采用全自动流水线，结合“主动先发验证”机制。
关键技术: 利用基于LightRAG构建的知识图谱，在生成前过滤幻觉内容，确保数据质量。

数据集用途与关联资源

主要用途: 用于支持“文本优先视觉”的训练方法，旨在提升超高分辨率遥感场景下的智能体强化学习与可验证奖励（Agentic RLVR）性能。
关联训练数据:
- SuperRS-VQA: 用于监督微调（SFT）阶段的图像数据。
- DeepEyes-47K: 用于通用推理稳定性训练的强化学习数据。
模型检查点: 训练好的模型可在 https://huggingface.co/initiacms/Text-Before-Vision 获取。
论文链接: https://arxiv.org/abs/2602.14225

性能表现

在XLRS-Bench基准测试上的评估结果如下：

方法	Pass@1	Pass@32
基线（RLVR）	50.01	82.58
+ 预热（SuperRS-VQA）	52.39	91.85
+ 文本冷启动（本方法）	60.40	96.25

致谢

本仓库的工作受益于DeepEyes（https://github.com/Visual-Agent/DeepEyes）和LLaMA-Factory（https://github.com/hiyouga/LlamaFactory）项目。

搜集汇总

数据集介绍

构建方式

在遥感科学领域，高质量的数据集是推动模型理解超高清影像的关键。Earth-Science Text QA Dataset的构建采用了一种全自动化的流水线，结合了主动先验验证机制。该流程基于一个由LightRAG构建的知识图谱，从八千余本教科书和二十万篇科学论文中提取信息，生成并筛选出十四万八千余对高质量的文本问答对。知识图谱在生成前预先过滤幻觉内容，确保了数据的准确性和领域专业性，从而为后续的视觉推理任务奠定了坚实的文本知识基础。

使用方法

数据集的应用遵循分阶段的知识注入框架，以优化代理强化学习在遥感任务中的表现。首先，在冷启动监督微调阶段，利用该文本问答数据集对基础模型进行训练，以植入领域推理结构。随后，结合超高清图像文本数据执行预暖化微调，稳定后续的工具增强代理学习流程。具体实施时，用户可通过HuggingFace平台下载数据集，并借助LLaMA-Factory等工具进行模型微调，再集成GRPO与放大工具进行强化学习，最终在XLRS-Bench等基准上评估模型在平均性能与推理边界方面的提升效果。

背景与挑战

背景概述

地球科学文本问答数据集由国防科技大学、上海人工智能实验室等机构的研究团队于近期构建，旨在推动超高分辨率遥感影像的智能理解。该数据集的核心研究问题聚焦于如何将领域先验知识有效注入多模态大模型，以提升其在复杂地球科学场景中的推理能力。通过从八千余本教科书和二十万篇学术论文中自动化提取并验证，该数据集生成了近十五万条高质量的思维链问答对，为遥感智能分析提供了坚实的文本知识基础，显著增强了模型在XLRS-Bench等权威评测中的性能表现。

当前挑战

该数据集致力于解决超高分辨率遥感视觉问答任务中领域知识匮乏与复杂视觉推理相结合的挑战。具体而言，构建过程面临两大难题：一是如何从海量非结构化科学文献中自动化生成高质量、低幻觉的文本问答对，研究团队通过引入基于知识图谱的主动预验证机制来确保数据可靠性；二是在多模态训练中，如何设计有效的分阶段知识注入策略，使文本推理结构能够稳定迁移至视觉证据检索，避免模型在像素级空间探索中陷入无效学习。

常用场景

经典使用场景

在超高分辨率遥感影像理解领域，Earth-Science Text QA Dataset 最经典的使用场景是作为知识注入的先导训练数据。该数据集通过海量地球科学教科书与学术论文构建的文本问答对，为视觉模型提供了结构化的领域先验知识。研究实践表明，在涉及复杂空间推理与地物识别的任务中，先利用此文本数据集进行冷启动训练，能显著提升模型后续处理遥感图像时的逻辑推理与证据检索能力，为多模态智能体的高效学习奠定基础。

解决学术问题

该数据集有效解决了超高分辨率遥感理解中领域知识匮乏与模型推理边界受限的核心学术问题。传统方法在处理海量像素空间时，常因缺乏结构化先验而陷入探索困境。本数据集通过提供经过知识图谱验证的高质量思维链问答，将地球科学的专业概念与逻辑关系编码为可学习的表示，从而拓宽了模型的推理上限，使得智能体在工具增强的强化学习框架下，能更稳定地实现视觉证据的精准定位与多步推理。

实际应用

在实际应用层面，Earth-Science Text QA Dataset 为遥感影像智能解译系统提供了关键的知识基础设施。它能够支撑土地利用分类、灾害监测、环境评估等具体任务，通过预训练注入的地学知识，提升自动化系统对复杂场景如城市变迁、植被覆盖、水体分布的解读精度与可靠性。这种以文本为先导的训练范式，降低了直接处理超高分辨率图像的计算成本，推动了遥感分析技术向更高效、更可解释的方向发展。

数据集最近研究