YearGuessr
收藏arXiv2025-12-25 更新2025-12-26 收录
下载链接:
https://sytwu.github.io/BeyondMemo/
下载链接
链接失效反馈官方服务:
资源简介:
YearGuessr是由国立阳明交通大学团队构建的全球性建筑图像数据集,包含55,546张来自157个国家的建筑立面图像,时间跨度涵盖公元1001至2024年。数据集通过维基百科爬取,包含GPS坐标、页面浏览量(作为知名度指标)及详细文本描述,经过去重、CLIP过滤和人工审核确保质量。该数据集旨在解决视觉语言模型在建筑年代预测中的记忆偏差问题,支持可持续发展审计、遗产保护等应用领域,为建筑年龄估计任务提供了首个开放且具有全球覆盖的基准。
YearGuessr is a global architectural image dataset developed by the team at National Yang Ming Chiao Tung University. It contains 55,546 architectural facade images from 157 countries, spanning from 1001 CE to 2024 CE. The dataset was collected via web crawling from Wikipedia, and includes GPS coordinates, page views (as a popularity indicator) and detailed textual descriptions. It has undergone deduplication, CLIP filtering and manual review to ensure data quality. This dataset aims to address the memorization bias issue of vision-language models in architectural age prediction, supports applications such as sustainable development auditing and heritage conservation, and provides the first open and globally comprehensive benchmark for the building age estimation task.
提供机构:
国立阳明交通大学
创建时间:
2025-12-25
原始信息汇总
YearGuessr 数据集概述
数据集基本信息
- 数据集名称: YearGuessr
- 核心任务: 建筑年龄(建造年份)预测,被构建为一个多模态序数回归基准测试。
- 数据规模: 55,546 个条目(经过去重和清洗后)。
- 数据来源: 维基百科,涵盖全球建筑。
- 覆盖范围: 来自 157 个国家。
- 时间跨度: 公元 1001 年至 2024 年。
- 许可协议: CC BY-SA 4.0。
数据内容与模态
每个数据条目包含以下多模态信息:
- 图像: 建筑立面图。
- 建造年份: 连续标签(1001~2024 CE)。
- 建筑名称。
- GPS坐标。
- 文本描述: 来自维基百科页面的描述性文本。
- 页面浏览量: 为期一年的页面访问计数,作为“流行度”指标。
数据收集与处理流程
数据收集分为两个阶段:
- 初始收集: 使用维基百科网站及相关工具获取约 90,000 个初始条目。
- 数据清洗: 通过去重、基于模型的过滤和人工审核,得到最终的 55,546 个条目。
数据集统计分析
对数据分布进行了多维度分析:
- 地理分布: 数据集中在美洲(63.31%)和欧洲(22.48%)。
- 时间分布: 集中在现代(1800-2024年)。
- 流行度分布: 83.89% 的条目页面浏览量在 100 到 10,000 之间。
- 城乡分布: 建筑位置主要位于城市区域(46.37%)。
- 翻新状态: 大多数建筑经历过更新(未改变建造年份,占52.99%)。
基准测试与评估指标
- 任务框架: 将年龄预测构建为序数回归问题。
- 评估指标:
- 流行度加权平均绝对误差(Popularity-weighted MAE)。
- 区间准确率(Interval Accuracy):预测误差在 ±5、±20、±50、±100 年内的准确率。
- 基准模型: 评估了超过 30 个模型,包括基于 CNN、Transformer、CLIP 的模型以及视觉语言模型。
关联模型:YearCLIP
- 模型介绍: 专为序数回归(建造年份估计)设计的模型,使用 NumCLIP 作为骨干网络。
- 技术特点: 通过语言先验和由粗到细的方法提升性能,融合图像和可选的坐标信息。
- 可解释性: 能够通过建筑风格、材料、设计元素等人类可读的理由为其预测提供解释。在 YearGuessr、FI-London 和 MapYourCity 数据集上展示了其可解释性。
主要实验发现
- 模型性能: 在基于 CLIP 的方法中,YearCLIP 取得了最低的 MAE(39.52)。视觉语言模型通常表现更好。
- 流行度偏差: 视觉语言模型在按流行度分别计算时,表现出明显的流行度偏差。
- 性能影响因素: 建筑数据较少的洲、非常古老的建造年份、偏远地区以及经过重建的建筑会降低模型性能。
引用信息
- 标题: Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models
- 作者: Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, He Syu, Yu-Lun Liu
- 年份: 2025
- arXiv ID: 2512.21337
- 论文链接: https://arxiv.org/abs/2512.21337
搜集汇总
数据集介绍

构建方式
YearGuessr数据集的构建始于对Wikimedia Commons中建筑类别的系统性爬取,通过递归遍历“Buildings_and_structures_by_year_of_completion”分类,自动收集了90,230个建筑相关页面。随后,从每个页面提取首张信息框图像、地理坐标、完整维基文本以及通过Wikimedia Pageviews API获取的页面浏览量作为流行度代理。为确保数据质量,实施了去重处理、基于ViT-B/32 CLIP模型的建筑立面过滤以及人工审核,最终得到55,546张独特且高质量的立面图像,覆盖157个国家,时间跨度从公元1001年至2024年。数据按建造年代和大陆进行分层,以60%/20%/20%的比例划分为训练、验证和测试集,确保了评估的公正性与代表性。
特点
YearGuessr数据集的核心特点在于其多模态与全局覆盖性。它不仅提供了55,546张建筑立面图像,还整合了连续的建造年份标签、GPS坐标、详细的文本描述以及维基百科页面浏览量,从而构建了一个丰富的多属性基准。数据集的时间范围跨越千年,地理分布涵盖六大洲,但存在明显的不平衡性,例如美洲样本占比高达63.3%,而非洲仅占0.5%。这种分布特性为研究模型的地理与时间泛化能力提供了独特视角。此外,页面浏览量的重尾分布揭示了建筑流行度的显著差异,为深入探究视觉语言模型中的流行度记忆偏差奠定了数据基础。
使用方法
该数据集主要用于建筑建造年份预测的序数回归任务。给定一张建筑立面图像及可选的GPS坐标,模型需预测其建造年份,并可通过集成解释性提示生成建筑风格推理。评估采用平均绝对误差(MAE)和区间准确率(如IA5、IA20)等指标,并特别引入了基于流行度分层的分析指标,以量化模型在知名与普通建筑上的性能差异。研究人员可利用该基准全面评估CNN、Transformer、CLIP及各类视觉语言模型,深入探索模型是否真正理解建筑特征,抑或仅仅记忆了地标性建筑的关联信息。
背景与挑战
背景概述
YearGuessr数据集由国立阳明交通大学的研究团队于2025年构建,旨在解决建筑年代估计这一核心研究问题。该数据集包含来自157个国家的55,546张建筑立面图像,时间跨度覆盖公元1001年至2024年,并整合了GPS坐标、文本描述及页面浏览量等多模态属性。作为首个开放许可的全球性建筑年代估计基准,YearGuessr填补了现有数据在地理覆盖范围和时间深度上的不足,为可持续性审计、遗产保护和灾害评估等领域提供了关键的数据支持,推动了视觉-语言模型在建筑理解方面的研究进展。
当前挑战
YearGuessr数据集面临的挑战主要体现在两个方面:在领域问题层面,建筑年代估计任务需克服建筑风格的时空异质性、翻修改建带来的线索模糊性以及早期建筑样本稀缺等难题,要求模型具备深度的建筑语义理解而非简单记忆。在构建过程中,数据收集面临地理分布不均衡、时间跨度大导致的标注一致性维护,以及从维基百科等开放平台爬取图像时需严格遵循版权许可并过滤非建筑或重复样本,确保数据质量与合规性。
常用场景
经典使用场景
在建筑遗产保护与城市可持续发展研究中,YearGuessr数据集为建筑年代自动估计任务提供了首个全球性、多模态的开放基准。该数据集通过整合55,546张建筑立面图像、连续建造年份标签、GPS坐标及维基百科页面浏览量,构建了一个跨越千年的时空知识库。其经典应用场景在于评估视觉语言模型在建筑年代预测任务中的泛化能力,特别是通过对比知名地标与普通建筑的预测精度,系统揭示模型是否依赖记忆而非真正的建筑风格理解。
解决学术问题
YearGuessr数据集有效解决了建筑信息学领域长期存在的若干关键问题。它首次以连续序数回归框架替代传统的离散分类方法,克服了以往数据集中年代标签粒度粗糙的局限。通过引入基于流行度的偏差度量指标,该数据集量化了视觉语言模型中普遍存在的记忆偏差现象,即模型在知名建筑上表现优异,而对非著名建筑的预测能力显著下降。这一发现挑战了现有模型在建筑年代推理任务中的可靠性,推动了对于模型泛化性与可解释性的深入研究。
衍生相关工作
围绕YearGuessr数据集,学术界衍生出一系列重要的研究工作。其提出的YearCLIP模型融合了序数回归、地理位置先验与可解释性提示,为建筑年代预测设立了新的性能基线。后续研究进一步探索了数据增强技术以缓解地理与时序偏差,并发展了针对早期建筑风格的专门化模型。该数据集也激发了对于视觉语言模型记忆机制与偏差缓解策略的广泛讨论,推动了GeoCLIP、NumCLIP等地理与序数感知模型在跨模态任务中的改进与应用。
以上内容由遇见数据集搜集并总结生成



