POI-QA
收藏arXiv2025-05-16 更新2025-05-20 收录
下载链接:
https://www.kaggle.com/ds/7394666
下载链接
链接失效反馈官方服务:
资源简介:
POI-QA是一个新型的基于兴趣点(POI)的时空敏感问答数据集,由香港城市大学数据科学系和浙江工业大学计算机科学系的研究人员创建。该数据集通过挖掘和匹配来自GAIA的开源车辆轨迹数据与高精度地理POI数据,经过严格的手动验证和双语QA对生成,旨在评估模型在时空推理方面的能力。数据集包括超过500万个问题答案对,覆盖约40万个独特的POI位置和30天的车辆轨迹数据。POI-QA数据集可用于研究地理知识处理、时间信息理解和时空推理等任务,并为开发智能推荐系统提供有价值的基准。
POI-QA is a novel point-of-interest (POI) based spatio-temporal sensitive question answering dataset, created by researchers from the Department of Data Science, City University of Hong Kong and the Department of Computer Science, Zhejiang University of Technology. This dataset is constructed by mining and matching open-source vehicle trajectory data from GAIA and high-precision geospatial POI data, followed by rigorous manual verification and bilingual QA pair generation, aiming to evaluate models' capabilities in spatio-temporal reasoning. It contains over 5 million question-answer pairs, covering approximately 400,000 unique POI locations and 30 days of vehicle trajectory data. The POI-QA dataset can be used for research tasks such as geographic knowledge processing, temporal information understanding and spatio-temporal reasoning, and provides a valuable benchmark for the development of intelligent recommendation systems.
提供机构:
香港城市大学数据科学系, 中国香港特别行政区; 浙江工业大学计算机科学系, 杭州, 中国
创建时间:
2025-05-16
搜集汇总
数据集介绍

构建方式
POI-QA数据集的构建过程分为三个关键步骤:首先从GAIA开放源车辆轨迹数据中挖掘时空演化关系,并与高精度地理POI数据进行对齐;随后通过人工验证对噪声时空事实进行严格筛选;最后生成反映人类可理解的时空推理任务的双语(中/英文)问答对。该数据集覆盖约40万个独特POI位置和连续30天的车辆轨迹数据,确保了数据的广泛性和时效性。
特点
POI-QA数据集的核心特点在于其强烈的时空敏感性,能够捕捉细微的时空变化对问题背景的影响。数据集包含多个粒度级别(如POI名称、子类别、中类别和大类别),每个级别超过500万个问答对,支持从粗粒度到细粒度的多层次时空推理任务。此外,其双语设计和基于真实轨迹数据的构建方式,为跨语言模型评估提供了独特基准。
使用方法
该数据集适用于时空敏感的POI预测任务,支持分类和生成两种主要使用方式。在分类任务中,模型需根据起点和途经点POI信息预测终点POI的类别;生成任务则要求直接输出终点POI名称。评估时可采用HR@k和NDCG@k等指标,针对不同难度任务设置k∈{5,10,20}。对于生成式任务,建议额外计算BLEU分数以评估文本相似度。
背景与挑战
背景概述
POI-QA数据集由香港城市大学和浙江工业大学的研究团队于2025年提出,旨在解决现有问答数据集在时空敏感性问题上的不足。该数据集聚焦于兴趣点(POI)的时空敏感问答,通过整合开源车辆轨迹数据和高精度地理POI数据,构建了一个包含双语(中文/英文)问答对的大规模基准。POI-QA的核心研究问题是提升模型在时空推理方面的能力,特别是在处理复杂时空依赖关系时的表现。该数据集的推出为时空推理领域的研究提供了重要的评估工具,推动了智能推荐系统和导航算法的发展。
当前挑战
POI-QA数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,模型需要解决地理知识处理、时间信息理解和时空推理等复杂任务,例如准确识别不同地理位置POI的运营时间差异。构建过程中的挑战包括:1) 从嘈杂的时空数据中提取有效信息并进行人工验证;2) 确保双语问答对的质量和一致性;3) 处理稀疏和碎片化的时空信息,如用户签到数据中存在的时间间隔问题。这些挑战使得POI-QA成为一个具有高度复杂性和实用价值的基准数据集。
常用场景
经典使用场景
POI-QA数据集在时空敏感的POI问答任务中展现出卓越的应用价值。该数据集通过整合车辆轨迹数据和高精度地理POI信息,构建了丰富的双语问答对,为模型提供了复杂的时空依赖关系解析场景。其经典使用场景包括基于历史轨迹的POI推荐、多粒度分类任务(如POI主类、中类和子类预测)以及开放式生成任务(如POI名称生成),这些场景均要求模型同时处理空间邻近性和时间上下文。
衍生相关工作
该数据集已衍生出多个经典研究方向:基于LoRA的轻量化时空模型微调方法显著提升了Qwen2.5等模型的HR@10指标;检索增强生成(RAG)框架通过结合外部知识库,将NDCG@5提高至0.472;后续工作如CityGPT进一步扩展了POI-QA的时空推理范式,将其应用于城市尺度决策支持。这些成果均以POI-QA为基准,推动了时空敏感型大模型的技术演进。
数据集最近研究
最新研究方向
近年来,POI-QA数据集在时空敏感的兴趣点问答领域引起了广泛关注。该数据集通过整合开源车辆轨迹数据和高精度地理POI数据,构建了一个包含双语问答对的基准测试集,旨在评估模型在复杂时空依赖关系中的推理能力。研究热点主要集中在提升大型语言模型(LLMs)的时空推理能力,特别是在兴趣点推荐、移动性分析和个性化服务等应用场景中。POI-QA的推出填补了现有数据集中时空敏感问题不足的空白,为开发更智能的推荐系统提供了重要支持。其影响不仅限于技术领域,还为城市规划、交通管理等多个实际应用场景提供了数据支持。
相关研究论文
- 1A Dataset for Spatiotemporal-Sensitive POI Question Answering香港城市大学数据科学系, 中国香港特别行政区; 浙江工业大学计算机科学系, 杭州, 中国 · 2025年
以上内容由遇见数据集搜集并总结生成



