SkyScraper GDELT dataset

Name: SkyScraper GDELT dataset
Creator: 麻省理工学院; Planet Labs
Published: 2026-04-14 22:12:19
License: 暂无描述

arXiv2026-04-14 更新2026-04-16 收录

下载链接：

https://tinyurl.com/skyscraper-s2

下载链接

链接失效反馈

官方服务：

资源简介：

SkyScraper GDELT数据集是由麻省理工学院和Planet Labs联合创建的多时相卫星图像标注数据集，旨在解决遥感领域多时相事件标注数据缺乏的问题。该数据集包含5000个图像序列，数据来源于全球事件、语言和语调数据库（GDELT）的新闻文章，并通过PlanetScope和Sentinel-2卫星图像生成。数据集创建过程采用了多智能体反馈系统，自动识别新闻事件相关的卫星图像并生成标注。该数据集主要应用于遥感图像分析、新闻事件检测和多时相变化描述等领域，为自动事件检测和标注提供了重要资源。

The SkyScraper GDELT Dataset is a multi-temporal satellite image annotation dataset jointly created by the Massachusetts Institute of Technology (MIT) and Planet Labs. It is designed to address the scarcity of multi-temporal event annotation data in the remote sensing domain. This dataset contains 5000 image sequences, which are sourced from news articles within the Global Database of Events, Language, and Tone (GDELT) and generated using PlanetScope and Sentinel-2 satellite imagery. A multi-agent feedback system was utilized during the dataset construction process, enabling automatic identification of satellite images associated with news events and generation of corresponding annotations. This dataset is primarily applied in fields including remote sensing image analysis, news event detection, and multi-temporal change description, serving as a critical resource for automatic event detection and annotation.

提供机构：

麻省理工学院; Planet Labs

创建时间：

2026-04-14

搜集汇总

数据集介绍

构建方式

在遥感影像多时序事件描述领域，现有数据集多局限于双时相图像对，难以捕捉动态演变过程。SkyScraper GDELT数据集通过创新的多智能体反馈工作流构建，该系统首先从全球新闻数据库中提取地理实体与事件时间线，继而利用地理编码接口获取坐标，并检索对应时间序列的卫星影像。关键步骤在于引入多模态大语言模型验证代理，交叉比对新闻文本与影像以确认事件可见性，若验证失败则迭代搜索新候选位置。最终通过自动化流程生成了涵盖5000个影像序列的数据集，其中每个序列平均包含21幅PlanetScope影像或8幅Sentinel-2影像，有效突破了传统人工标注的效率瓶颈。

使用方法

该数据集为多模态遥感分析研究提供了新的基准平台。研究者可将其用于训练端到端的事件描述模型，通过联合学习新闻文本特征与影像时空特征，实现从卫星影像序列自动生成事件描述。在方法验证层面，数据集的迭代验证机制可作为新型地理编码算法的评估框架，特别是对于涉及模糊地理位置的多源信息融合任务。此外，数据集支持跨分辨率对比研究，用户可分析不同空间分辨率影像对事件可见性的影响。为确保研究可复现性，建议遵循论文提供的预处理流程，并注意区分自动生成标题与人工验证子集的使用场景。

背景与挑战

背景概述

遥感图像分析领域长期依赖于双时相变化检测与描述，但针对多时相序列的事件描述数据集却极为匮乏。SkyScraper GDELT数据集由麻省理工学院与行星实验室的研究团队于2026年提出，旨在通过多智能体反馈系统，自动从全球新闻数据库中定位并描述卫星图像中的可见事件。该数据集的核心研究问题在于如何高效地建立大规模、多样化的多时相遥感图像描述数据集，以支持事件理解、新闻报道及自动化分析。通过结合地理编码与大语言模型，该工作显著提升了事件发现的效率与规模，为遥感与自然语言处理的交叉研究提供了重要基准。

当前挑战

该数据集致力于解决遥感领域多时相事件描述这一核心挑战，即如何从连续卫星图像序列中自动识别并生成自然语言描述，以涵盖自然灾害、工程建设等动态事件。构建过程中的主要困难在于，从海量新闻文本中准确提取事件地理位置并匹配相应影像存在显著噪声，传统地理编码方法易受错误地名与坐标偏差干扰。此外，确保事件在卫星影像中可见且能生成准确描述，需要克服多模态验证与标注的复杂性，这些因素共同构成了数据集构建的技术瓶颈。

常用场景

经典使用场景

在遥感与计算机视觉交叉领域，SkyScraper GDELT数据集为多时序卫星图像事件描述任务提供了关键基准。该数据集通过智能体反馈流程，将全球新闻事件与卫星影像序列对齐，典型应用于训练和评估多模态大语言模型，以自动生成反映地表动态变化的自然语言描述。研究人员利用其包含的数千个标注序列，能够深入探索从自然灾害到城市建设的多样化事件在遥感视角下的视觉演变模式，从而推动时序图像理解技术的边界。

解决学术问题

该数据集有效应对了遥感领域长期存在的多时序事件标注数据稀缺的挑战。传统方法受限于双时相图像对和人工标注，难以捕捉复杂事件的连续演变过程。SkyScraper通过自动化流程从海量新闻中挖掘可见事件，并生成高质量的多图像描述，为学术界提供了研究时序变化检测、跨模态对齐与视觉语言生成等核心问题的宝贵资源。其意义在于建立了新闻文本与卫星影像之间的语义桥梁，为数据驱动的遥感智能分析奠定了新的基础。

实际应用

在现实世界中，SkyScraper GDELT数据集支持着灾害响应、环境监测与新闻核实等关键应用。例如，机构可借助该数据集训练的模型，快速从卫星影像中识别洪水或山火等灾害的蔓延轨迹，为应急决策提供视觉依据。同时，它赋能新闻行业，通过交叉验证新闻报道与遥感观测，提升事件报道的准确性与时空维度上的丰富性，体现了遥感技术在信息社会中的公共服务价值。

数据集最近研究