five

SkyScript|遥感技术数据集|视觉语言处理数据集

收藏
arXiv2023-12-20 更新2024-06-21 收录
遥感技术
视觉语言处理
下载链接:
https://github.com/wangzhecheng/SkyScript
下载链接
链接失效反馈
资源简介:
SkyScript是由斯坦福大学创建的一个大规模且语义多样的遥感视觉语言数据集,包含260万个图像-文本对,覆盖2.9万个不同的语义标签。该数据集通过地理坐标将Google Earth Engine上的无标签遥感图像与OpenStreetMap中的丰富语义信息相连接,实现了全球覆盖。SkyScript不仅包含广泛的对象类别,还包含子类别和详细属性,如农田作物类型、道路表面材料等。该数据集旨在支持遥感领域中多种多模态任务的发展,如开放词汇分类、检索、图像描述和文本到图像合成。
提供机构:
斯坦福大学
创建时间:
2023-12-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
SkyScript数据集通过将Google Earth Engine(GEE)平台上的大规模未标注遥感图像与OpenStreetMap(OSM)中的地理标签语义信息进行自动连接,构建了一个包含260万对图像-文本对的综合视觉-语言数据集。该数据集通过地理坐标将遥感图像与OSM中的丰富语义信息进行配对,涵盖了29,000个不同的语义标签。构建过程中,首先从GEE获取多源、多分辨率的遥感图像,然后利用OSM中的标签信息生成图像的描述文本,并通过CLIP模型对标签进行分类,确保标签与图像的视觉可解释性。
特点
SkyScript数据集的主要特点在于其大规模和语义多样性。该数据集包含了260万对图像-文本对,覆盖了29,000个不同的语义标签,远超现有的遥感图像-文本数据集。其语义信息不仅涵盖了对象类别,还包括子类别和详细属性,如道路表面材料、农田作物类型等。此外,数据集具有全球覆盖性,尽管高分辨率图像主要集中在欧美地区,但其他地区的数据也得到了较好的覆盖。
使用方法
SkyScript数据集可用于多种遥感任务的模型开发,如开放词汇分类、跨模态检索、图像描述生成和文本到图像生成等。通过在该数据集上进行持续预训练,可以获得专门针对遥感领域的视觉-语言模型(VLM),并在零样本场景分类、细粒度属性分类和跨模态检索等任务中表现出显著的性能提升。此外,该数据集还可以与其他图像-文本数据集结合,用于从头开始预训练通用VLM。
背景与挑战
背景概述
SkyScript数据集由斯坦福大学的研究团队创建,旨在填补遥感图像领域中大规模语义多样化视觉语言数据集的空白。该数据集通过地理坐标将Google Earth Engine中的未标记遥感图像与OpenStreetMap中的丰富语义信息自动连接,构建了包含260万对图像-文本数据的全面数据集,涵盖29,000个不同的语义标签。SkyScript的创建不仅推动了遥感图像在可持续发展目标和气候变化应对中的应用,还为视觉语言模型(VLM)在遥感领域的多模态任务(如开放词汇分类、检索、图像描述生成等)提供了强有力的支持。通过在该数据集上的持续预训练,研究人员成功开发出超越基线模型的VLM,显著提升了零样本场景分类、细粒度属性分类和跨模态检索等任务的性能。
当前挑战
SkyScript数据集的构建面临两大主要挑战。首先,遥感图像的特殊性使得从公开互联网上大规模收集图像-文本对变得困难,因为这些图像通常由地球观测公司、政府机构或国际组织独家拥有,无法通过网络爬取获取。其次,由于遥感图像的领域专业性,通过人工标注获取大规模语义多样化的数据集同样具有挑战性。现有的遥感数据集规模通常较小,语义类别有限,难以满足VLM对大规模多样化数据的需求。此外,SkyScript在地理覆盖上存在偏差,高分辨率图像主要集中在欧美地区,导致其他地区的数据代表性不足。未来需要通过与地球观测机构合作,获取更广泛的高分辨率图像,并通过结合模型与人工标注进一步丰富数据集的语义多样性。
常用场景
经典使用场景
SkyScript数据集的经典使用场景主要集中在遥感图像的多模态任务中,如零样本场景分类、细粒度属性分类和跨模态检索。通过在SkyScript数据集上进行持续预训练,研究人员能够开发出超越基线模型的视觉语言模型(VLM),并在多个遥感基准数据集上实现显著的性能提升。
实际应用
SkyScript数据集在实际应用中具有广泛的应用场景,特别是在可持续发展领域。例如,它可以用于基础设施状况的监测(如道路、桥梁)、非法采矿的识别、土地利用的跟踪以及分布式可再生能源资源的映射。此外,SkyScript还可以与其他图像-文本数据集结合,用于从头开始预训练通用视觉语言模型,进一步扩展其在不同领域的应用潜力。
衍生相关工作
基于SkyScript数据集,研究人员开发了多个相关的经典工作,特别是在遥感领域的视觉语言模型(VLM)方面。例如,通过在SkyScript上进行持续预训练,研究人员构建了专门针对遥感的CLIP模型(SkyCLIP),并在零样本场景分类、细粒度属性分类和跨模态检索任务中取得了显著的性能提升。此外,SkyScript还为其他遥感任务(如图像描述生成和文本到图像生成)提供了数据支持,推动了遥感领域多模态研究的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。

github 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录