AGL1K

Name: AGL1K
Creator: 北京航空航天大学·复杂软件环境国家重点实验室; 上海人工智能实验室; 北京航空航天大学·国际创新研究院·数据科学与智能计算重点实验室
Published: 2026-01-07 02:13:24
License: 暂无描述

arXiv2026-01-07 更新2026-01-08 收录

下载链接：

https://github.com/Rising0321/AGL1K

下载链接

链接失效反馈

官方服务：

资源简介：

AGL1K是由北京航空航天大学联合上海人工智能实验室推出的首个音频地理定位基准数据集，涵盖72个国家和地区的1,444条精选音频片段，包含自然声景、动物鸣叫、音乐、人造声音及对话等多样化声学场景。数据源自众包平台Aporee的GPS标记录音，通过提出的‘音频可定位性’指标量化地理信息强度进行筛选。该数据集旨在评估音频语言模型的地理空间推理能力，应用于公共安全与虚假信息检测领域，推动模型在细粒度感知和组合推理方面的进步。

AGL1K is the first audio geolocation benchmark dataset jointly launched by Beihang University and Shanghai AI Laboratory. It covers 1,444 curated audio clips from 72 countries and regions, encompassing diverse acoustic scenarios including natural soundscapes, animal calls, music, man-made sounds, and dialogues. The data is sourced from GPS-tagged recordings on the crowdsourcing platform Aporee, and was filtered using the proposed 'audio localizability' metric to quantify the intensity of geographic information. This dataset aims to evaluate the geospatial reasoning capabilities of audio language models, with applications in public safety and misinformation detection, to advance progress in fine-grained perception and compositional reasoning for models.

提供机构：

北京航空航天大学·复杂软件环境国家重点实验室; 上海人工智能实验室; 北京航空航天大学·国际创新研究院·数据科学与智能计算重点实验室

创建时间：

2026-01-07

原始信息汇总

AGL1K: Audio Geo-Localization 1K Benchmark 数据集概述

数据集简介

AGL1K 是一个开创性的基准测试，旨在评估音频语言模型的地理定位能力。其核心任务是：仅给定一段音频录音，要求AI模型判断该录音在地球上的录制位置。

数据集统计概览

统计项	数值
总样本数	1,444
覆盖国家数	74
覆盖大洲数	6
音频时长	10秒 - 180秒
声音类别	人类、动物、音乐、自然、城市

模型评估与排行榜

该基准测试评估了 16个最先进的音频语言模型。主要评估指标如下：

距离误差：预测坐标与真实坐标之间的平均测地线距离（单位：公里），越低越好。
大洲准确率：大洲级别的定位准确率，越高越好。
国家准确率：国家级别的定位准确率，越高越好。
城市准确率：城市级别的定位准确率，越高越好。

闭源模型性能（前三名）

模型	距离误差 ↓	大洲准确率 ↑	国家准确率 ↑	城市准确率 ↑
🥇 Gemini 3 Pro	2180.57	0.82	0.51	0.11
🥈 Gemini 2.5 Pro	2521.97	0.78	0.49	0.11
🥉 Gemini 2.0 Flash	2906.31	0.73	0.40	0.08

开源模型性能（前三名）

模型	距离误差 ↓	大洲准确率 ↑	国家准确率 ↑	城市准确率 ↑
Mimo-audio	4853.25	0.54	0.20	0.03
Mimo-audio-think	5008.01	0.51	0.20	0.03
Qwen3-Omni	5174.36	0.47	0.25	0.02

关键发现

音频地理定位是可行的。Gemini 3 Pro 实现了51%的国家级准确率，平均距离误差为2180公里，表明现代音频语言模型能够仅从音频中提取有意义的地理信息。

音频示例

数据集包含来自不同地理位置的多样化音频样本，例如：

比利时 - 学生讨论：包含法语对话、大学氛围和欧洲城市声景。
摩洛哥 - 古老麦地那：包含伊斯兰宣礼声、北非氛围和海风声。
瑞典 - 城市交通枢纽：包含瑞典语广播通知、行李轮声和北欧交通氛围。
德国 - 城市自然：包含独特的黑鹂鸟鸣声、城市花园氛围和中欧鸟类物种声音。

数据使用与获取

目录结构

data/ ├── audios/ # 音频文件目录（需单独下载） │ ├── audio_file_1.mp3 │ ├── audio_file_2.mp3 │ └── ... └── geoLocalization_schema.csv # 包含地理标注的元数据文件

注意：data/audios/ 文件夹因文件大小未包含在代码仓库中，必须单独下载以运行基准测试。

评估流程

下载音频数据：使用 data/download_audio.py 脚本。
运行评估：使用 openllm.py 脚本对指定模型进行评估。
处理结果：使用 fix_csv_v2.py 将原始CSV输出转换为结构化JSON。
生成指标：使用 analyze_new.py 计算各项评估指标并输出至 results.csv。

数据来源与许可

音频样本来源：主要源自 Aporee Sound Maps。
许可：此基准测试仅限研究用途。详细使用条款请参考相关论文。

搜集汇总

数据集介绍

构建方式

在音频地理定位领域，高质量音频-位置配对数据的稀缺长期制约着研究进展。AGL1K基准数据集通过从众包平台Aporee获取数万条地理标记音频，并应用声学滤波器初步剔除低质量样本，随后创新性地提出音频可定位性度量，以量化每条录音的地理信息含量。该度量基于音频标签模型推断出的正负声音类别贡献，通过线性拟合计算可定位性分数，最终筛选出1,444条涵盖72个国家及地区的音频片段，确保了数据的地理多样性与信息可靠性。

特点

AGL1K数据集在音频地理定位任务中展现出鲜明的特征。其覆盖范围广泛，样本横跨六大洲，包含自然声景、动物鸣叫、音乐、人造声响及口语对话等多种声学场景，为评估模型的组合推理能力提供了丰富语境。数据集通过可定位性度量精细筛选，强调语音、列车、海浪等正类别声音的地理指示性，同时降低引擎、雨声等负类别声音的干扰，从而提升了样本的地理信息密度。此外，数据集中包含大量多类别耦合的音频，要求模型整合多重线索进行地理推断，增强了基准的挑战性与实用性。

使用方法

AGL1K数据集主要用于评估音频语言模型在地理定位任务中的组合推理能力。研究人员可将音频输入模型，要求其输出预测的地理坐标、城市、国家及大陆信息，并鼓励模型提供逐步推理过程以分析其决策依据。评估时需采用多种指标，包括平均距离误差、大陆/国家/城市层级准确率以及阈值距离准确率，以全面衡量模型从粗到细的定位性能。该数据集还可用于分析模型在语音与非语音音频上的表现差异、区域预测偏差及错误模式，从而为改进模型的细粒度感知与推理能力提供实证依据。

背景与挑战

背景概述

音频地理定位旨在从音频信号中推断其地理来源，这一任务对音频语言模型的组合推理能力提出了严峻挑战，并与公共安全等应用紧密相关。然而，该领域长期缺乏高质量、带地理标注的音频数据作为系统化评估基准。为填补这一空白，北京航空航天大学复杂与关键软件环境国家重点实验室的研究团队于2026年提出了AGL1K数据集。作为首个专为音频语言模型设计的音频地理定位基准，AGL1K从众包平台Aporee中精心筛选出覆盖六大洲、72个国家和地区的1,444个音频片段。其核心创新在于提出了“音频可定位性”量化指标，用以评估每个录音所蕴含的地理信息丰富度，从而确保了数据集的构建质量与评估价值。该数据集的建立，标志着音频地理定位从探索性研究迈向了标准化、可量化评估的新阶段，为深入探究多模态模型的时空推理能力提供了关键基础设施。

当前挑战

AGL1K数据集所应对的核心领域挑战，在于系统化评估音频语言模型从复杂声学线索中进行组合式地理推理的能力。这要求模型不仅需具备细粒度的音频感知能力以识别语言、环境音、动物叫声等线索，还需整合广泛的世界地理与文化知识，将多源弱线索融合为精确的地理坐标预测。在数据集构建过程中，研究者面临两大主要挑战：其一，公开可用的、带精确地理位置标注的音频数据极为稀缺，与图像领域存在的大量社交媒体地理标记数据形成鲜明对比；其二，缺乏一个客观、量化的标准来从海量众包音频中筛选出真正蕴含可定位地理信息的样本。为此，研究团队创新性地提出了“音频可定位性”度量方法，通过聚合推理过程中正负声音类别的贡献来量化地理信息量，从而克服了高质量数据筛选的难题，为构建可靠的评估基准奠定了基础。

常用场景

经典使用场景

在音频地理定位研究领域，AGL1K数据集作为首个专为音频语言模型设计的基准，其经典使用场景在于系统性地评估模型从复杂声学信号中推断地理位置的组合推理能力。该数据集精心筛选了涵盖72个国家与地区的1444段音频，包含自然声景、动物鸣叫、音乐、人造声响及口语对话等多种声学场景，为模型提供了融合语言、环境与文化线索的综合性测试平台。研究人员通过该数据集能够深入探究模型如何整合诸如伊斯兰宣礼声、海鸥鸣叫、法语对话及特定交通噪音等多重弱信号，从而精准定位至摩洛哥索维拉等具体城市，这标志着音频地理定位从理论构想迈向实证评估的关键一步。

衍生相关工作

AGL1K数据集的推出催生了一系列聚焦音频空间推理的衍生研究。在基准构建方法论上，其提出的音频可定位性度量启发了后续工作对多模态数据地理信息含量的量化评估。在模型能力评测方面，该数据集为比较闭源与开源音频语言模型的性能差异提供了实证依据，揭示了语言线索在空间推理中的主导作用及模型存在的区域偏见问题。相关研究进一步拓展至细粒度声学事件分类、跨语言音频理解以及结合视觉模态的多源地理定位等方向。这些工作共同推动了音频地理定位从狭窄领域（如鸟类鸣声识别）向多样化、全局化声学场景分析的范式转变，强化了组合推理在音频语言模型评估体系中的地位。

数据集最近研究