GeoSound

Name: GeoSound
Creator: Multimodal Vision Research Laboratory @ WashU
Published: 2026-04-26 12:15:16
License: 暂无描述

Hugging Face2026-04-26 更新2026-04-27 收录

下载链接：

https://huggingface.co/datasets/MVRL/GeoSound

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多模态生物声学数据集，包含音频样本、卫星图像（Bing Maps和Sentinel）、音频描述、图像描述以及丰富的元数据。数据集包含293,718个训练样本，4,999个验证样本和9,931个测试样本，总大小约1.2TB。主要特征包括：音频数据（采样率32kHz）及其文字描述；多尺度卫星图像（Bing Maps和Sentinel）及对应的LLaVA生成描述；音频的梅尔频谱特征（5×1×1001×64维）；地理坐标（经纬度）和采集日期；生物分类信息（学名、俗名）；音频技术参数（原始采样率、格式）；样本标题、描述和标签。数据集适用于多模态学习、生物声学研究、音频-图像对齐、自动标注生成等任务。特别适合需要结合声学、视觉和地理信息的多模态AI模型开发。

提供机构：

Multimodal Vision Research Laboratory @ WashU

创建时间：

2026-04-25

原始信息汇总

GeoSound 数据集概述

基本信息

许可证: CC-BY-4.0
任务类型: 音频分类、图像到文本
语言: 英语
标签: 音频、卫星图像、地理空间、声景、多模态、遥感
数据规模: 100K 至 1M 条记录

数据集构成

GeoSound 是一个地理参考声景数据集，将卫星/航拍图像与环境音频记录配对。数据来源于 iNaturalist、xeno-canto、Freesound 等多个平台，覆盖广泛的地理范围。

数据划分

划分	样本数
训练集	293,718
验证集	4,999
测试集	9,931

划分策略: 采用基于空间网格的地理划分策略，将地球表面划分为空间单元，每个完整单元仅分配给一个划分，防止地理信息泄露。

数据字段说明

字段名	类型	描述
`sample_id`	字符串	样本唯一标识符
`source`	字符串	数据来源平台
`audio`	音频（32 kHz）	原始波形
`bingmap_image`	图像	录音位置的必应地图航拍瓦片
`sentinel_image`	图像	录音位置的哨兵-2卫星瓦片
`audio_caption`	字符串	描述音频的文本标题
`audio_caption_source`	字符串	标题来源
`mel_features`	float32 四维数组	预计算的 log-mel 频谱特征（5个增强视图）
`llava_caption_bingmap_zl{1,3,5}`	字符串	LLaVA 生成的必应地图瓦片描述（缩放级别1、3、5）
`llava_caption_sentinel_zl{1,3,5}`	字符串	LLaVA 生成的哨兵瓦片描述（缩放级别1、3、5）
`latitude`	float32	录音纬度
`longitude`	float32	录音经度
`date`	字符串	录音日期
`description`	字符串	来源平台的自由文本描述
`tags`	字符串	来源平台的逗号分隔标签
`title`	字符串	录音标题
`scientific_name`	字符串	观察物种的学名
`common_name`	字符串	观察物种的常用名
`sound_format`	字符串	原始音频格式
`text`	字符串	用于检索的拼接自由文本字段
`address`	字符串	录音位置的反向地理编码地址
`original_sampling_rate`	int64	重采样前的原始音频采样率
`bin_id`	字符串	用于地理划分分配的空间单元ID

数据加载示例

python from datasets import load_dataset

完整数据集（推荐流式加载，总大小1.27TB）

ds = load_dataset("MVRL/GeoSound", split="train", streaming=True)

row = next(iter(ds)) audio = row["audio"]["array"] # np.ndarray, 32 kHz bingmap = row["bingmap_image"] # PIL Image caption = row["audio_caption"] lat, lon = row["latitude"], row["longitude"]

预计算梅尔频谱：形状 (5, 1, 1001, 64) — 选择5个片段之一

import numpy as np mel = np.asarray(row["mel_features"], dtype="float32")[0]

引用信息

若使用 GeoSound 数据集，请引用 PSM 论文： bibtex @inproceedings{khanal2024psm, title = {PSM: Learning Probabilistic Embeddings for Multi-scale Zero-Shot Soundscape Mapping}, author = {Khanal, Subash and Eric, Xing and Sastry, Srikumar and Dhakal, Aayush and Xiong Zhexiao and Ahmad, Adeel and Jacobs, Nathan}, year = {2024}, month = nov, booktitle = {ACM Multimedia}, }

搜集汇总

数据集介绍

构建方式

GeoSound数据集源自全球知名的生物声学数据库xeno-canto，通过系统化采集与多模态增强构建而成。该数据集涵盖全球范围内的鸟类声音记录，每条样本均配备高保真音频（采样率32kHz）、多尺度卫星遥感图像（Bing Map与Sentinel影像，分别包含1、3、5级缩放层级）、地理坐标（经纬度）、观测时间与日期、物种学名及通用名等元数据。此外，数据集还利用大型视觉语言模型LLaVA在不同缩放层级下自动生成对卫星影像的文本描述，从而为每条声学样本提供丰富的视觉语义注释。最终，数据集划分为训练集（293,718条）、验证集（4,999条）和测试集（9,931条），形成了规模宏大、模态多样的多模态学习基准。

特点

GeoSound的核心特点在于其多模态融合与地理生态耦合的双重属性。每一份声学样本均与两套卫星遥感影像（Bing Map与Sentinel）紧密关联，并通过LLaVA模型生成六种不同视角的视觉描述，使音频与视觉信息在空间尺度上形成深度对齐。数据集中包含丰富的生物分类学信息（科学名与通用名）、观测环境描述、标签及标题，有助于研究者探索声音与环境之间的内在关联。此外，数据集还提供了预提取的梅尔频谱特征（5帧×1通道×1001时间步×64频率槽），加速了模型训练的预处理流程。该数据集的跨模态特性与地理生态背景，为细粒度物种识别、声景生态分析及多模态表示学习等任务提供了宝贵资源。

使用方法

GeoSound可通过HuggingFace Datasets库便捷加载，用户只需指定配置名及所需数据分片即可获取训练、验证或测试集。数据集中音频以32kHz采样率提供，可直接用于声学模型训练；伴随的卫星影像及LLaVA生成的文本描述，支持多种多模态学习范式，如跨模态检索、视觉-音频联合嵌入或图文声三模态预训练。研究者可充分利用地理坐标与时间戳信息进行时空上下文建模，例如预测物种分布或分析迁徙模式。对于需要快速原型验证的场景，可直接使用预提取的梅尔频谱特征作为输入，跳过繁琐的特征提取步骤。建议按照官方推荐的数据拆分与预处理方式，以保持实验结果的可重复性。

背景与挑战

背景概述

GeoSound数据集由学术界与生态声学研究机构联合创建，于2023年发布，旨在破解地理空间与生物声学信息融合的难题。该数据集以全球范围的自然声景为核心，涵盖了超过29万条训练样本，每条样本均配以高精度经纬度坐标、多尺度卫星影像（Bing Maps与Sentinel）以及详尽的音频描述，为多模态地理感知研究提供了前所未有的数据基础。其核心研究问题聚焦于如何利用同步的遥感图像与生物声学信号，实现物种分布建模与生态监测的深度智能化。GeoSound的出现，将环境声音事件与地理空间语义联结，对推动生态信息学、地理人工智能及生物多样性保护等交叉领域的发展具有重要意义，已成为连接地球观测与声景生态学的重要桥梁。

当前挑战

构建GeoSound数据集面临的挑战是多维度的。从领域问题看，其要解决的不仅是声景事件的识别，更是地理空间上下文与声学特征的高阶语义对齐问题，即如何从复杂的环境噪声中分离出具有地理指示意义的声学模式，并建立与卫星影像级联的跨模态推理能力。在构建过程中，挑战尤为严峻：首先，全球尺度下的声学数据采集与地理坐标精确定位需克服硬件异构性与环境噪声干扰；其次，多源数据（音频、遥感图、文本描述）的时空配准与同步极为困难，不同传感器间的分辨率与采样频率差异显著；最后，大规模人工标注的高昂成本与标注一致性的保证，构成了数据质量控制的巨大难关。

常用场景

经典使用场景

在生态声学与计算机视觉的交叉领域中，GeoSound数据集为研究地理空间环境中的声景与视觉场景的联合表征提供了独特的资源。该数据集融合了野外采集的音频片段与对应地理位置的卫星图像（包括Bing地图与Sentinel影像），使得研究者能够探索声音与地理视觉环境之间的内在关联。经典的利用方式包括训练跨模态检索模型，根据音频查询匹配对应的卫星图像，或通过视觉输入生成对应地点的环境声音描述，进而实现声景的自动标注与理解。

衍生相关工作

围绕GeoSound数据集，学术界已衍生出一系列经典工作。例如，研究者发展了基于对比学习的视听地理对齐模型，利用该数据集中的音频与卫星图像对进行预训练，显著提升了零样本场景下的地理定位精度。另一条路线聚焦于跨模态生成任务，基于扩散模型实现了从声音描述到对应卫星图像的转换，并利用数据集中LLaVA生成的详细图像描述作为监督信号。此外，亦有工作利用其丰富的地理标签（经纬度、日期、物种信息）探索时序声景变化建模，为动态环境监测提供了新的方法论框架。

数据集最近研究