five

GEOTEMP

收藏
arXiv2025-06-04 更新2025-06-06 收录
下载链接:
https://github.com/UhhDS/GeoTemp
下载链接
链接失效反馈
官方服务:
资源简介:
GEOTEMP是一个包含32万个提示的数据集,覆盖了217个国家中的289个城市和37个时区,旨在评估语言模型在时空推理方面的能力。数据集包含了四种任务模板,用于测试不同水平的时空推理。数据集的创建过程包括收集时区和城市信息、设计任务模板以及生成测试集。数据集可用于评估语言模型在处理时间和地点问题时的性能,以及探索如何通过注入时空知识来提高模型性能。

GEOTEMP is a dataset containing 320,000 prompts, covering 289 cities across 217 countries and 37 time zones, designed to evaluate the spatial-temporal reasoning capabilities of language models. The dataset includes four task templates to test spatial-temporal reasoning at different levels. Its creation process involves collecting time zone and city information, designing task templates, and generating the test set. This dataset can be used to evaluate the performance of language models when handling temporal and spatial questions, as well as to explore how to improve model performance by injecting spatial-temporal knowledge.
提供机构:
汉堡大学, 德国; 博科尼大学, 意大利
创建时间:
2025-06-04
搜集汇总
数据集介绍
main_image_url
构建方式
GEOTEMP数据集的构建过程分为三个关键步骤:首先基于Olson时区数据库筛选全球460个精确地理位置,通过人口和地理坐标等元数据增强信息密度;其次设计四类渐进式时空推理任务模板,从单纯时间计算到时区转换的复合型问题;最后采用分层抽样方法确保覆盖37个UTC时区和217个国家,最终生成32万条测试提示。数据生成过程中采用2023年随机时间点以保证时效性,并通过国家标注消除同名城市歧义。
特点
该数据集具有显著的时空覆盖广度和认知深度:地理上涵盖从南极科考站到太平洋岛国的289个城市,其中50%城市人口不足50万,有效避免大都市偏差;时间维度上整合夏令时规则和UTC偏移量计算。其核心特色在于任务设计的系统性——通过VERIFICATION(时间复述)、TIMETIME(纯时间推理)、TIMEPLACE(时区转换)、TIMETIMEPLACE(时空复合推理)四类任务,构建从原子能力到复杂推理的评估谱系。
使用方法
使用GEOTEMP时需结合正则表达式自动评估与人工验证的双重机制:将模型开放域回答与pytz库计算的基准答案进行模式匹配,经3600条样本验证的评估器准确率达98%。研究建议采用多数表决法整合不同提示模板(中性指令、思维链、简洁回答)的结果。对于时空复合任务,可注入显式时区知识作为外部记忆,通过对比原始性能与知识增强性能,分离模型的知识存储与推理能力缺陷。
背景与挑战
背景概述
GEOTEMP数据集由德国汉堡大学和意大利博科尼大学的研究团队于2025年创建,旨在评估大型语言模型(LLMs)在时空联合推理方面的能力。该数据集包含32万条提示,覆盖全球37个时区的289个城市,填补了现有研究在复杂时空推理评估方面的空白。GEOTEMP的建立基于Olson时区数据库和OpenDataSoft的城市数据,通过精心设计的任务模板(如时间计算、时区转换等)系统性地测试模型的多维知识整合能力。该数据集已成为评估LLMs时空认知能力的重要基准,对提升模型在物流规划、跨国商务等实际应用中的可靠性具有重要意义。
当前挑战
GEOTEMP面临的核心挑战体现在两个维度:领域问题方面,现有模型在独立处理时间或空间信息时表现尚可,但时空联合推理的准确率骤降至25.4%,暴露出现有架构在知识整合方面的固有缺陷;数据构建方面,需解决全球城市时区数据动态更新(如夏令时规则)、小城市覆盖率(6%城市人口≤500)导致的低频实体识别困难,以及避免地理位置名称歧义(如多个'伦敦')等难题。此外,模型表现与地点名称困惑度显著相关(高低困惑度组合性能差达22.5%),提示训练数据分布不均衡对评估效度的潜在影响。
常用场景
经典使用场景
GEOTEMP数据集在自然语言处理领域中被广泛用于评估大型语言模型(LLMs)在时间和空间联合推理方面的能力。该数据集通过设计包含不同复杂度的地理和时间知识组合的任务,为研究者提供了一个系统化的测试平台,用以检验模型在处理跨时区时间计算、地理位置识别及其联合推理任务中的表现。
解决学术问题
GEOTEMP解决了当前研究中关于LLMs在时空联合推理能力评估不足的问题。通过提供覆盖全球289个城市、37个时区的32万条提示,该数据集填补了现有研究在复杂时空推理任务上的空白,揭示了模型在简单时间计算和复杂时空推理任务之间的性能差距,为模型优化提供了明确方向。
衍生相关工作
基于GEOTEMP的评估框架,后续研究衍生出多个重要工作。例如,针对模型时空知识检索机制的改进研究、结合外部知识库的增强方法,以及探索提示工程对复杂推理任务影响的深入分析。这些工作共同推动了LLMs在时空推理领域的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作