Git-10M

github2025-01-03 更新2025-01-04 收录

下载链接：

https://github.com/Chen-Yang-Liu/Text2Earth

下载链接

链接失效反馈

官方服务：

资源简介：

Git-10M数据集是一个全球尺度的遥感图像-文本对数据集，包含1000万个带有地理位置和分辨率信息的图像-文本对。

Git-10M Dataset is a global-scale remote sensing image-text pair dataset, which contains 10 million image-text pairs with geographic location and resolution information.

创建时间：

2024-12-31

原始信息汇总

Text2Earth 数据集概述

数据集基本信息

数据集名称: Git-10M
数据集规模: 包含1000万对图像-文本对
数据类型: 遥感图像与文本对
数据特征: 包含地理位置和分辨率信息

数据集用途

主要用途: 用于文本驱动的遥感图像生成
应用场景: 遥感图像生成、图像编辑、跨模态图像生成等

数据集特点

全球范围: 数据集覆盖全球范围的遥感图像
高分辨率: 图像具有高分辨率信息
多样性: 包含多种类型的遥感图像（如RGB、SAR、NIR、PAN等）

数据集与模型的性能

在RSICD基准数据集上的表现: Text2Earth在FID和零样本OA指标上显著优于之前的模型，分别提升了+26.23 FID和+20.95% Zero-shot OA。

数据集与模型的发布

发布时间: 2025年2月
发布状态: 数据集和模型将公开提供

引用

如果您在研究中使用了该论文，请考虑引用： bibtex @ARTICLE{xxxxxxxxxx, author={Liu, Chenyang and Chen, Keyan and Zhang, Haotian and Qi, Zipeng and Zou, Zhengxia and Shi, Zhenwei}, journal={IEEE Transactions on Geoscience and Remote Sensing}, title={Change-Agent: Toward Interactive Comprehensive Remote Sensing Change Interpretation and Analysis}, year={2024}, volume={}, number={}, pages={1-1}, keywords={Remote sensing;Feature extraction;Semantics;Transformers;Roads;Earth;Task analysis;Interactive Change-Agent;change captioning;change detection;multi-task learning;large language model}, doi={10.1109/TGRS.2024.3425815}}

许可证

许可证类型: MIT License
使用限制: 代码仅用于学术目的

搜集汇总

数据集介绍

构建方式

Git-10M数据集是一个全球尺度的遥感图像-文本对数据集，包含了1000万对带有地理定位和分辨率信息的图像-文本对。该数据集的构建基于广泛的遥感数据源，涵盖了多样化的地理环境和场景。通过自动化数据采集和人工标注相结合的方式，确保了数据的高质量和多样性。每一对图像和文本都经过严格的筛选和验证，以确保其准确性和一致性。

特点

Git-10M数据集的主要特点在于其全球尺度和高分辨率。数据集覆盖了广泛的地理区域，包括城市、乡村、森林、沙漠等多种地形。每张图像都配备了详细的文本描述，这些描述不仅包含地理信息，还涉及场景的语义内容。此外，数据集还提供了分辨率信息，使得研究人员能够根据需求选择不同分辨率的图像进行分析和建模。这种多样性和丰富性使得Git-10M成为遥感图像生成和理解的理想选择。

使用方法

Git-10M数据集的使用方法灵活多样，适用于多种遥感图像处理任务。研究人员可以利用该数据集进行文本驱动的图像生成、图像编辑和跨模态图像生成等任务。通过结合Text2Earth模型，用户可以实现零样本图像生成、无界遥感场景构建和遥感图像编辑等功能。数据集还支持多模态图像生成，包括RGB、SAR、NIR和PAN图像的生成与转换。使用该数据集时，建议先进行数据预处理，确保图像和文本的匹配性，然后根据具体任务选择合适的模型和算法进行实验和分析。

背景与挑战

背景概述

Git-10M数据集是由Chenyang Liu、Keyan Chen、Rui Zhao、Zhengxia Zou和Zhenwei Shi等研究人员于2025年发布的一个全球规模的遥感图像-文本对数据集。该数据集包含1000万对带有地理定位和分辨率信息的图像-文本对，旨在推动文本驱动的遥感图像生成研究。Git-10M的发布标志着遥感领域在跨模态生成任务中的重大突破，为后续的模型开发和应用提供了坚实的基础。基于该数据集，研究团队开发了Text2Earth模型，这是一个具有13亿参数的生成基础模型，能够实现分辨率可控的文本到图像生成，并在多个任务中展现出强大的泛化能力和灵活性。

当前挑战

Git-10M数据集在构建和应用过程中面临多重挑战。首先，遥感图像与文本的精确对齐是一个复杂的问题，尤其是在全球范围内收集数据时，地理信息的多样性和复杂性增加了数据标注的难度。其次，数据集的规模庞大，如何高效地存储、管理和处理这些数据成为技术上的瓶颈。此外，Text2Earth模型的开发需要解决分辨率可控生成、跨模态图像生成以及图像编辑中的视觉一致性问题，这对模型的架构设计和训练策略提出了极高的要求。最后，如何在实际应用中确保生成图像的准确性和实用性，尤其是在遥感图像的复杂场景中，仍然是一个亟待解决的挑战。

常用场景

经典使用场景

Git-10M数据集在遥感图像生成领域具有广泛的应用，特别是在文本驱动的遥感图像生成任务中。该数据集通过提供全球范围内的10百万对图像-文本对，为研究人员提供了丰富的训练数据，使得模型能够基于文本描述生成高分辨率的遥感图像。这一特性在遥感图像生成、场景构建和图像编辑等任务中展现了显著的优势。

衍生相关工作

基于Git-10M数据集，研究人员开发了Text2Earth模型，该模型在遥感图像生成任务中表现出色。Text2Earth不仅在零样本生成任务中超越了现有模型，还在遥感图像的无限扩展和编辑任务中展现了强大的能力。此外，该模型还支持跨模态图像生成，如RGB、SAR、NIR和PAN图像的生成与转换，进一步扩展了遥感图像生成的应用范围。

数据集最近研究