AGL1K

github2026-01-06 更新2026-01-10 收录

下载链接：

https://github.com/Rising0321/AGL1K

下载链接

链接失效反馈

官方服务：

资源简介：

AGL1K是一个开创性的基准数据集，旨在评估音频语言模型（ALMs）的地理定位能力。给定一段音频录音，AI能否确定其在地球上的录制位置？数据集包含1,444个样本，覆盖74个国家和6大洲，音频时长从10秒到180秒不等，涵盖人类、动物、音乐、自然和城市等多种声音类别。

AGL1K is a groundbreaking benchmark dataset designed to evaluate the geolocation capabilities of Audio Language Models (ALMs). The core task of this dataset is: Given an audio recording, can an AI determine the geographic location on Earth where the recording was captured? The dataset contains 1,444 samples covering 74 countries across 6 continents, with audio durations ranging from 10 seconds to 180 seconds. It encompasses a diverse set of sound categories including human voices, animal sounds, music, natural sounds, and urban sounds.

创建时间：

2025-12-15

原始信息汇总

AGL1K: Audio Geo-Localization 1K Benchmark 数据集概述

数据集简介

AGL1K 是一个开创性的基准测试，旨在评估音频语言模型的地理定位能力。其核心任务是：仅给定一段音频录音，要求人工智能模型判断该录音在地球上的录制位置。

数据集关键统计信息

总样本数：1,444
覆盖国家数：74
覆盖大洲数：6
音频时长范围：10秒至 180秒
声音类别：人类活动、动物、音乐、自然、城市环境

模型性能排行榜

该基准测试评估了 16 个先进的音频语言模型，主要性能指标如下：

距离误差：预测坐标与真实坐标之间的平均测地线距离（单位：公里），越低越好。
大洲准确率：大洲级别的定位准确率，越高越好。
国家准确率：国家级别的定位准确率，越高越好。
城市准确率：城市级别的定位准确率，越高越好。

闭源模型表现（前三名）

Gemini 3 Pro
- 距离误差：2180.57 km
- 大洲准确率：0.82
- 国家准确率：0.51
- 城市准确率：0.11
Gemini 2.5 Pro
- 距离误差：2521.97 km
- 大洲准确率：0.78
- 国家准确率：0.49
- 城市准确率：0.11
Gemini 2.0 Flash
- 距离误差：2906.31 km
- 大洲准确率：0.73
- 国家准确率：0.40
- 城市准确率：0.08

开源模型表现（前三名）

Mimo-audio
- 距离误差：4853.25 km
- 大洲准确率：0.54
- 国家准确率：0.20
- 城市准确率：0.03
Mimo-audio-think
- 距离误差：5008.01 km
- 大洲准确率：0.51
- 国家准确率：0.20
- 城市准确率：0.03
Qwen3-Omni
- 距离误差：5174.36 km
- 大洲准确率：0.47
- 国家准确率：0.25
- 城市准确率：0.02

关键发现

音频地理定位是可行的。Gemini 3 Pro 实现了 51% 的国家级准确率和 2180 公里的平均距离误差，表明现代音频语言模型能够仅从音频中提取有意义的地理信息。

音频示例

数据集包含具有代表性的音频案例，用于展示音频地理定位的挑战性。示例如下：

比利时 - 学生讨论：场景为课后讨论，包含法语对话、大学氛围和欧洲城市声景。
摩洛哥 - 古老麦地那：场景为老城宣礼塔的宣礼声，包含伊斯兰宣礼声、北非氛围和海风声。
瑞典 - 城市交通枢纽：场景为主要火车站，包含瑞典语广播通知、行李轮声和北欧交通氛围。
德国 - 城市自然：场景为乌鸫在窗口鸣叫，包含独特的乌鸫歌声、城市花园氛围和中欧鸟类物种声。

数据使用与获取

音频数据：需要单独下载并解压至 data/audios/ 文件夹，该文件夹因文件大小未包含在代码仓库中。
元数据：地理位置信息存储在 data/geoLocalization_schema.csv 文件中。
评估脚本：提供了 openllm.py、fix_csv_v2.py 和 analyze_new.py 等脚本用于模型评估和结果分析。

许可与致谢

许可证：本基准测试仅限研究用途。
音频来源：音频样本来源于 https://aporee.org/maps/。

搜集汇总

数据集介绍

构建方式

在音频地理定位研究领域，构建一个高质量的数据集是评估模型性能的基础。AGL1K数据集通过精心筛选来自全球74个国家、覆盖六大洲的1444个音频样本而构建。这些样本的时长介于10秒至180秒之间，涵盖了人类活动、动物声音、音乐、自然声响及城市环境等多种声学类别。数据采集过程注重地理分布的多样性与声学场景的代表性，每个样本均标注了精确的城市、国家、大洲信息及地理坐标，为模型提供了丰富的跨地域声学特征与对应的空间标签。

特点

AGL1K数据集作为首个面向音频语言模型的地理定位基准，其核心特点在于开创性地将声学信号与地理位置信息进行大规模关联。数据集不仅提供了多层次的定位评估指标，包括大洲、国家、城市级别的分类准确率以及以公里为单位的坐标距离误差，还涵盖了从自然环境到城市生活的广泛声学场景。这种设计使得该数据集能够全面检验模型从音频中提取地理线索的能力，例如通过语言口音、环境背景音及特定生物声学特征进行空间推断，为音频理解研究提供了新的评估维度。

使用方法

使用AGL1K数据集进行评估时，研究人员需首先下载独立的音频文件至指定目录，并依据提供的元数据表格构建评估流程。通过运行配套脚本，可将音频输入至目标音频语言模型，获取模型预测的地理位置信息，包括坐标及各级别分类结果。随后，利用分析工具计算关键性能指标，如平均地理距离误差和各层级定位准确率，从而系统量化模型的地理推理能力。该流程支持对开源与闭源模型的统一评估，为音频地理定位技术的比较与优化提供了标准化框架。

背景与挑战

背景概述

音频地理定位作为跨模态人工智能研究的前沿分支，旨在探索声音信号中蕴含的地理空间信息。AGL1K数据集由研究团队于2024年创建，作为首个面向音频语言模型的世界级地理定位基准，其核心研究问题聚焦于评估模型仅凭音频输入推断录制地理位置的能力。该数据集涵盖全球74个国家、六大洲的1444个样本，涉及人类活动、动物鸣叫、音乐、自然与城市声景等多类声音，为检验模型从复杂声学线索中提取文化、语言及环境特征的能力提供了标准化测试平台。它的建立推动了音频理解与地理信息学的交叉融合，为环境感知、文化遗产保护及智能导航等应用奠定了数据基础。

当前挑战

AGL1K所针对的音频地理定位任务面临多重挑战：在领域层面，模型需从短暂且往往包含背景噪声的音频中辨识微弱的地理标识，如方言口音、特定物种鸣叫或城市声学指纹，这些线索具有高度的模糊性与地域重叠性。当前最佳模型的平均距离误差仍达2180公里，揭示出现有技术在细粒度定位上的显著局限。在数据集构建过程中，挑战主要源于全球声景样本的采集与标注，需确保地理分布的均衡性、音频质量的清晰度，以及文化背景的多样性，同时克服隐私伦理约束与版权许可问题，以构建一个既全面又可靠的标准评估集。

常用场景

经典使用场景

在音频地理定位研究领域，AGL1K数据集为评估音频语言模型的地理感知能力提供了标准化基准。该数据集通过涵盖全球74个国家、6大洲的1444个音频样本，模拟了从自然环境到城市声景的多样化声学环境。研究者通常利用该数据集训练和测试模型，要求模型仅依据音频内容推断录制地点，包括城市、国家、大陆乃至具体坐标，从而推动模型在跨模态理解与空间推理方面的进展。

实际应用

在实际应用层面，AGL1K数据集所支撑的技术可用于环境监测、文化遗产保护与智能导航系统。例如，通过分析野外录音自动识别生物多样性热点区域，或利用历史音频档案重建消失的声景以辅助考古研究。在公共安全领域，此类模型能够协助紧急事件响应，通过背景声音快速定位求助呼叫的来源地，提升救援效率。

衍生相关工作

围绕AGL1K数据集，学术界已衍生出一系列经典研究工作，包括基于Gemini系列模型的音频地理定位推理框架，以及开源模型如Mimo-audio和Qwen3-Omni的适配探索。这些工作不仅验证了音频语言模型在跨任务泛化上的潜力，还催生了针对声学特征提取、多尺度地理编码以及不确定性建模的新方法，进一步丰富了地理人工智能与计算声学的研究图谱。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集