SoundingEarth

Name: SoundingEarth
Creator: Multimodal Vision Research Laboratory @ WashU
Published: 2026-04-26 08:35:52
License: 暂无描述

Hugging Face2026-04-26 更新2026-04-27 收录

下载链接：

https://huggingface.co/datasets/MVRL/SoundingEarth

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多模态数据集，包含音频、图像和文本数据。主要特征包括音频文件（采样率为32kHz）、谷歌地球图像、音频字幕及其来源、梅尔频谱特征（形状为5x1x1001x64的浮点数组）、基于LLaVA模型的谷歌地球图像字幕、经纬度坐标以及录制日期。数据集分为训练集（40,241个样本）、验证集（3,242个样本）和测试集（5,801个样本），总大小约为498GB。该数据集适用于多模态学习任务，如音频-图像关联分析、地理空间音频识别等。

提供机构：

Multimodal Vision Research Laboratory @ WashU

创建时间：

2026-04-25

原始信息汇总

SoundingEarth 数据集概述

SoundingEarth 是一个地理参考声景数据集，将 Google Earth 影像与地理标记的环境音频记录配对，最初由 Heidler 等人收集，用于自监督视听表示学习。

数据集规模与划分

数据集采用基于空间单元的划分策略，将地球表面划分为空间单元，整个单元分配给单一划分，防止地理泄漏。

划分	样本数
训练集 (train)	40,241
验证集 (val)	3,242
测试集 (test)	5,801

数据模式 (Schema)

字段	类型	描述
`sample_id`	字符串	样本唯一标识符
`short_id`	字符串	原始 SoundingEarth 版本中的简短标识符
`audio`	音频 (32 kHz)	原始波形
`googleearth_image`	图像	记录位置的 Google Earth 瓦片
`audio_caption`	字符串	描述音频的文本标题
`audio_caption_source`	字符串	标题来源（如模型、人工）
`mel_features`	float32 四维数组 (5,1,1001,64)	预计算的对数梅尔频谱图特征（5个增强视图）
`llava_caption_googleearth_zl1`	字符串	LLaVA 为缩放级别1的 Google Earth 瓦片生成的标题
`latitude`	float32	记录纬度
`longitude`	float32	记录经度
`date_recorded`	字符串	记录日期

使用许可

采用 CC-BY-4.0 许可证。

加载示例

python from datasets import load_dataset

加载完整数据集（建议流式加载）

ds = load_dataset("MVRL/SoundingEarth", split="train", streaming=True)

row = next(iter(ds)) audio = row["audio"]["array"] # np.ndarray, 32 kHz image = row["googleearth_image"] # PIL Image caption = row["audio_caption"] lat, lon = row["latitude"], row["longitude"]

预计算梅尔特征：形状 (5, 1, 1001, 64) — 选择5个片段之一

import numpy as np mel = np.asarray(row["mel_features"], dtype="float32")[0]

引用信息

使用本数据集时，请引用原始 SoundingEarth 论文以及基于空间单元划分方法的 PSM 论文。原始数据的所有版本也可通过 Zenodo 概念 DOI 进行引用。

搜集汇总

数据集介绍

构建方式

SoundingEarth数据集是首个将全球地理遥感影像与环境声音配对的多模态基准资源，其构建过程融合了大规模的野外录音采集与卫星图像检索技术。数据集通过在地球表面均匀分布的采样点获取自然与人文环境的声音片段，同时利用Google Earth API截取相应地理位置的卫星图像，确保了音频与图像在空间维度上的精确对齐。经过精心筛选与标注，最终形成包含超过4万条训练样本及近万条测试与验证样本的高质量数据集合，为跨模态学习提供了坚实的基础。

特点

该数据集的核心特色在于其独特的地理跨模态对齐设计，每个样本均包含32kHz高保真音频、对应区域的卫星图像以及详尽的文本描述，极大地丰富了多模态信息的维度。音频样本覆盖多样化的生态环境，如雨林、城市、海洋等，而卫星图像则呈现了从宏观地貌到微观建筑的全方位视觉线索，二者共同构建了从声音到视觉的跨域映射桥梁。此外，数据集还收录了精确的经纬度坐标与录制日期，支持时空敏感的深度学习研究。

使用方法

SoundingEarth的使用方法灵活多样，研究人员可通过HuggingFace Datasets库直接加载预设的数据划分（训练、验证、测试），并便捷访问音频（采样率32kHz）、图像及文本注释。典型的应用场景包括跨模态检索（如根据环境声音匹配对应的卫星图像）、地理定位（从音频推断拍摄地点）以及多模态表示学习。数据集内置的梅尔频谱特征可加速模型预处理，而LLaVA生成的详细图像描述则为视觉-语言联合训练提供了现成的高质量文本输入。

背景与挑战

背景概述

SoundingEarth数据集诞生于多模态地理空间智能领域快速发展的背景下，由国际顶尖研究机构联合构建，其核心研究问题在于弥合地球观测图像与实地环境音频之间的语义鸿沟。该数据集于近年创建，汇聚了来自全球各地的40241个训练样本、3242个验证样本及5801个测试样本，每个样本均包含高分辨率Google Earth图像、32kHz采样率的现场录音、地理坐标与时间戳等多元信息。通过引入丰富的音频描述与视觉特征，该数据集为地理场景理解、声景分类与跨模态检索等任务提供了前所未有的基准资源，显著推动了视听融合在地球科学中的应用深度。其影响力不仅体现在多模态学习范式上，更催生了从城市声环境监测到生态多样性评估等一系列交叉学科创新。

当前挑战

SoundingEarth数据集所面临的挑战具有双重性。在领域问题层面，它着力突破传统地理空间分析局限于视觉模态的瓶颈，需解决异构音频与光学遥感图像在语义层面进行对齐与融合的难题，特别是在自然场景中声学事件与环境背景的复杂交互给跨模态表征学习带来巨大障碍。在构建过程中，团队遭遇了多源数据时空配准的严峻考验——不同来源的音频片段与卫星图像在时间戳、坐标精度、覆盖范围上的差异需精密的校准算法来处理。此外，音频数据的信噪比受制于采集环境的多变性，而Google Earth图像的分辨率与更新频率各异，这些都对数据质量统一性和模型泛化能力构成了根本性挑战。

常用场景

经典使用场景

SoundingEarth数据集的核心价值在于其开创性的多模态对齐能力，它将地球地理坐标上的卫星遥感影像与对应的环境音景片段进行精确配对。在经典使用场景中，研究者利用该数据集训练跨模态检索模型，实现从图像到声音或从声音到图像的互检索。例如，给定一张来自Google Earth的卫星图，模型能够检索出该位置最具代表性的环境音频，反之亦然。这种图文声三模态的联合学习范式，为地理空间智能感知开辟了全新路径。

衍生相关工作

SoundingEarth的发布已衍生出多项开创性研究工作。基于该数据集，研究者提出了多模态地理编码与解码网络，实现了从任意模态输入到完整地理信息表达的映射。同时，出现了专门针对地理音频-图像对的自监督对比学习框架，显著提升了零样本地理场景分类性能。更深入的工作还包括探索时间维度上的声景变化建模，将卫星图像的时间序列与环境音频的动态变化关联起来，为长期生态动态监测提供技术支撑。

数据集最近研究