mikonvergence/LAION-EO

Name: mikonvergence/LAION-EO
Creator: mikonvergence
Published: 2024-05-14 04:39:24
License: 暂无描述

Hugging Face2024-05-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mikonvergence/LAION-EO

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-4.0 task_categories: - text-to-image language: - en tags: - climate size_categories: - 100K<n<1M --- # Dataset Card for LAION-EO ## Dataset Description - **Point of Contact:** Mikolaj Czerkawski, mikolaj.czerkawski@esa.int ### Dataset Summary This dataset contains a subset of LAION-5B containing images that are likely to be satellite images. The procedure of acquiring and filtering the dataset has been described in https://arxiv.org/abs/2309.15535. |Version|Number of Samples| |:---|:---| | 0 | 24,933 | | 1 | 112,985 | ## Dataset Structure Each version of the dataset contains a .csv file with metadata with urls to images, which can be easily filtered. Note that the linked images could be copyrighted. ### Data Fields |Field|Description| |:---|:---| |**source**| Index of the anchor sample | |**url**| Link to the image | |**filename**| Locally saved unique filename | |**id**| Original ID | |**fast_similarity**| Fast similarity to the anchor image computed with https://github.com/rom1504/clip-retrieval | |**caption**| Text caption | |**image_similarity**| CLIP similarity to the original anchor image | |**text_similarity**| CLIP similarity to the text "a satellite image" | |**height**| height of the image at url | |**width**| Width of the image at url | |**lang**| Language predicted using https://huggingface.co/papluca/xlm-roberta-base-language-detection | |**lang_score**| A measure of confidence in the predicted language | ### Example Samples ![](doc-files/example-samples.png) ### Data Splits No official splitting of the dataset is used. ## Dataset Creation The creation of the prototype version is described in https://arxiv.org/abs/2309.15535. ### Curation Rationale Extraction of samples in LAION-5B relevant to Earth observation tasks. ### Source Data Samples from the existing LAION-5B dataset (https://laion.ai/blog/laion-5b/). ### Discussion of Biases Only contains satellite images openly uploaded online, which introduces a heavy bias towards satellite images used for communicating ideas on the internet. ### Citation Information The workshop paper presented at the DataComp workshop during ICCV 2023 is available at https://arxiv.org/abs/2309.15535. ```latex @inproceedings{LAION_EO, title={From LAION-5B to LAION-EO: Filtering Billions of Images Using Anchor Datasets for Satellite Image Extraction}, author={Mikolaj Czerkawski and Alistair Francis}, year={2023}, eprint={2309.15535}, archivePrefix={arXiv}, primaryClass={cs.CV} booktitle = {"Towards the Next Generation of Computer Vision Datasets: DataComp Track" Workshop at the IEEE/CVF International Conference on Computer Vision (ICCV)} } ``` ### License We distribute the metadata dataset (the parquet files) under the Creative Common CC-BY 4.0 license, which poses no particular restriction. The images are under their copyright. ### Contributions Design and Curation: Mikolaj Czerkawski

--- 许可证: CC BY 4.0 任务类别: - 文本到图像（text-to-image）语言: - 英语标签: - 气候（climate）规模类别: - 10万<样本数量<100万 --- # LAION-EO 数据集卡片 ## 数据集说明 - **联系方式:** 米科拉伊·切尔考夫斯基（Mikolaj Czerkawski），邮箱：mikolaj.czerkawski@esa.int ### 数据集概述本数据集为LAION-5B的子集，包含疑似卫星图像（satellite image）的图片。数据集的获取与筛选流程已在https://arxiv.org/abs/2309.15535中详细阐述。 | 版本 | 样本数量 | |:---|:---| | 0 | 24,933 | | 1 | 112,985 | ## 数据集结构每个版本的数据集均包含一个存储元数据的.csv文件，其中附有图片URL，便于快速筛选。请注意，链接的图片可能受版权保护。 ### 数据字段 | 字段 | 描述 | |:---|:---| | **source** | 锚定样本的索引 | | **url** | 图片链接 | | **filename** | 本地保存的唯一文件名 | | **id** | 原始ID | | **fast_similarity** | 通过https://github.com/rom1504/clip-retrieval计算得到的、与锚定图片的快速相似度 | | **caption** | 文本标题 | | **image_similarity** | 与原始锚定图片的CLIP (Contrastive Language-Image Pre-training) 相似度 | | **text_similarity** | 与文本"卫星图像（satellite image）"的CLIP相似度 | | **height** | 对应URL中图片的高度 | | **width** | 对应URL中图片的宽度 | | **lang** | 通过https://huggingface.co/papluca/xlm-roberta-base-language-detection预测得到的语言 | | **lang_score** | 预测语言的置信度得分 | ### 示例样本 ![](doc-files/example-samples.png) ### 数据划分本数据集未设置官方划分方式。 ## 数据集构建原型版本的构建流程已在https://arxiv.org/abs/2309.15535中详细阐述。 ### 筛选依据提取LAION-5B中与地球观测任务相关的样本。 ### 数据源样本取自现有LAION-5B数据集（https://laion.ai/blog/laion-5b/）。 ### 偏差说明本数据集仅包含公开上传至网络的卫星图像，因此存在显著偏差：偏向于互联网上用于传播观点的卫星图像。 ### 引用信息发表于2023年IEEE/CVF国际计算机视觉大会（ICCV 2023）DataComp研讨会的工作论文可在https://arxiv.org/abs/2309.15535获取。 latex @inproceedings{LAION_EO, title={From LAION-5B to LAION-EO: Filtering Billions of Images Using Anchor Datasets for Satellite Image Extraction}, author={Mikolaj Czerkawski and Alistair Francis}, year={2023}, eprint={2309.15535}, archivePrefix={arXiv}, primaryClass={cs.CV} booktitle = {"Towards the Next Generation of Computer Vision Datasets: DataComp Track" Workshop at the IEEE/CVF International Conference on Computer Vision (ICCV)} } ### 许可证本元数据集（parquet文件）采用知识共享CC BY 4.0许可证进行分发，无特殊限制。图片版权归原作者所有。 ### 贡献者设计与筛选：米科拉伊·切尔考夫斯基（Mikolaj Czerkawski）

提供机构：

mikonvergence

原始信息汇总

数据集卡片 for LAION-EO

数据集描述

联系人: Mikolaj Czerkawski, mikolaj.czerkawski@esa.int

数据集概述

该数据集包含LAION-5B的一个子集，其中包含可能是卫星图像的图像。获取和过滤数据集的过程已在https://arxiv.org/abs/2309.15535中描述。

版本	样本数量
0	24,933
1	112,985

数据集结构

每个版本的数据集包含一个带有元数据的.csv文件，其中包含图像的URL，可以轻松过滤。请注意，链接的图像可能受版权保护。

数据字段

字段	描述
source	锚样本的索引
url	图像链接
filename	本地保存的唯一文件名
id	原始ID
fast_similarity	使用https://github.com/rom1504/clip-retrieval计算的与锚图像的快速相似度
caption	文本描述
image_similarity	与原始锚图像的CLIP相似度
text_similarity	与文本“a satellite image”的CLIP相似度
height	图像的高度
width	图像的宽度
lang	使用https://huggingface.co/papluca/xlm-roberta-base-language-detection预测的语言
lang_score	预测语言的置信度

示例样本

数据分割

没有正式的数据集分割。

数据集创建

原型版本的创建过程在https://arxiv.org/abs/2309.15535中描述。

筛选理由

从LAION-5B中提取与地球观测任务相关的样本。

源数据

来自现有的LAION-5B数据集（https://laion.ai/blog/laion-5b/）。

偏见讨论

仅包含在线公开上传的卫星图像，这引入了对互联网上用于传达思想的卫星图像的严重偏见。

引用信息

在ICCV 2023期间举行的DataComp研讨会上提交的研讨会论文可在https://arxiv.org/abs/2309.15535获得。

latex @inproceedings{LAION_EO, title={From LAION-5B to LAION-EO: Filtering Billions of Images Using Anchor Datasets for Satellite Image Extraction}, author={Mikolaj Czerkawski and Alistair Francis}, year={2023}, eprint={2309.15535}, archivePrefix={arXiv}, primaryClass={cs.CV}, booktitle={"Towards the Next Generation of Computer Vision Datasets: DataComp Track" Workshop at the IEEE/CVF International Conference on Computer Vision (ICCV)} }

许可证

我们根据Creative Common CC-BY 4.0许可证分发元数据集（parquet文件），该许可证没有特别限制。图像受其版权保护。

贡献

设计和筛选：Mikolaj Czerkawski

搜集汇总

数据集介绍

构建方式

在遥感影像分析领域，数据集的构建往往依赖于大规模图像库的筛选与精炼。LAION-EO数据集源自LAION-5B这一庞大的图文对集合，通过锚定数据集策略进行高效提取。具体而言，研究团队采用CLIP检索技术，以“卫星图像”为文本锚点，计算图像与文本之间的相似度，从而从数十亿样本中识别出可能属于卫星影像的候选集。这一过程在arXiv:2309.15535中详细阐述，最终形成了包含两个版本、总计超过十万条记录的数据子集，每条记录均附有图像URL、描述文本及多种相似度指标。

特点

该数据集的核心特点在于其专注于地球观测任务，为遥感影像分析提供了丰富的开源资源。数据集中的每张图像均配有详细的元数据，包括CLIP相似度分数、图像尺寸、语言检测结果等，这些信息为后续的过滤与分类提供了便利。值得注意的是，数据集仅包含互联网上公开的卫星图像，这在一定程度上引入了地域与内容上的偏差，例如偏向于常用于网络传播的影像类型。尽管如此，其规模与结构化设计仍使其成为训练与评估视觉-语言模型的宝贵资产。

使用方法

使用LAION-EO数据集时，研究人员可通过提供的CSV文件轻松访问元数据，并依据图像相似度、文本描述等字段进行灵活筛选。由于图像本身受版权保护，用户需自行下载并遵守相应许可。该数据集适用于文本到图像生成、卫星图像分类及跨模态检索等任务，尤其在结合CLIP等预训练模型时，能有效提升模型对遥感影像的理解能力。建议在应用中注意数据偏差问题，并结合实际需求对样本进行进一步清洗与增强。

背景与挑战

背景概述

随着遥感技术与人工智能的深度融合，大规模、高质量的卫星图像数据集成为推动地球观测领域发展的关键资源。2023年，欧洲空间局的Mikolaj Czerkawski等人构建了LAION-EO数据集，旨在从LAION-5B这一海量图文数据集中筛选出与卫星影像相关的样本。该数据集的核心研究问题聚焦于如何高效地从互联网规模的开放数据中提取适用于地球观测任务的图像-文本对，为遥感领域的多模态学习提供了重要基础。其构建不仅体现了数据驱动方法在遥感应用中的潜力，也为后续的卫星图像分析、气候变化监测等研究提供了宝贵的预训练资源。

当前挑战

LAION-EO数据集致力于解决卫星图像多模态理解中的关键挑战，即如何在海量互联网图像中准确识别并构建高质量的卫星影像-文本对。这一过程面临双重困难：在领域问题层面，卫星图像具有独特的光谱、空间与纹理特征，与自然图像存在显著差异，使得通用视觉-语言模型难以直接适配；在构建过程中，从LAION-5B的数十亿样本中筛选卫星图像需设计高效的锚定过滤机制，同时需应对网络图像版权复杂、标注噪声显著以及地理覆盖偏差等实际问题，这些因素共同制约了数据集的规模与代表性。

常用场景

经典使用场景

在遥感与地球观测领域，LAION-EO数据集为大规模视觉-语言模型的训练与评估提供了关键资源。该数据集通过从LAION-5B中筛选出疑似卫星图像的样本，构建了一个包含图像与文本描述的对齐集合，其经典应用场景集中于多模态学习框架下的卫星图像理解与生成任务。研究人员利用其丰富的图像-文本对，能够训练模型学习卫星影像的视觉特征与其自然语言描述之间的语义关联，进而推动遥感图像自动解译与内容生成技术的发展。

解决学术问题

LAION-EO数据集主要致力于解决遥感人工智能领域中数据稀缺与标注成本高昂的瓶颈问题。传统遥感数据集往往规模有限且标注依赖专家知识，而该数据集通过自动化过滤互联网公开图像，提供了一个大规模、弱监督的卫星图像资源库。这显著缓解了数据驱动的深度学习模型在遥感任务中面临的过拟合与泛化能力不足的挑战，为卫星图像分类、目标检测、场景理解等基础研究提供了数据支撑，并促进了跨模态表示学习在遥感领域的深入探索。

衍生相关工作

围绕LAION-EO数据集，已衍生出一系列重要的学术工作。其构建方法本身即是一项创新，相关论文《From LAION-5B to LAION-EO》系统阐述了利用锚点数据集过滤数十亿图像以提取卫星影像的技术流程。在此基础上，后续研究进一步探索了该数据集在遥感图像字幕生成、零样本卫星图像分类、以及结合CLIP等预训练视觉-语言模型进行领域自适应等方面的应用。这些工作共同推动了开放卫星图像数据生态的发展，并为多模态人工智能在遥感领域的落地提供了范例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集