TravelQA
收藏arXiv2025-04-23 更新2025-04-25 收录
下载链接:
http://arxiv.org/abs/2504.16505v1
下载链接
链接失效反馈官方服务:
资源简介:
TravelQA数据集是一个专门为旅行规划设计的多模态资源,包含22万个经过精心策划的问题回答对,其中包含来自真实旅行论坛的13万个文本问答对和9万个专注于地图理解和场景理解的视觉语言问答对。该数据集由香港科技大学创建,旨在解决旅行领域中多模态数据集的缺乏问题,为旅行AI系统提供全面的训练材料。
The TravelQA dataset is a multimodal resource specifically designed for travel planning. It contains 220,000 carefully curated question-answer pairs, including 130,000 text-based question-answer pairs sourced from real travel forums and 90,000 vision-language question-answer pairs focusing on map understanding and scene understanding. Developed by The Hong Kong University of Science and Technology, this dataset aims to address the shortage of multimodal datasets in the travel domain, providing comprehensive training materials for travel AI systems.
提供机构:
香港科技大学, 中国香港
创建时间:
2025-04-23
搜集汇总
数据集介绍

构建方式
TravelQA数据集的构建采用了创新的多模态方法,结合了文本和视觉语言两种数据来源。文本部分包含130k个问答对,源自真实旅行论坛的精选内容,并通过GPT模型增强回答质量;视觉语言部分则包含90k个问答对,专注于地图理解和场景理解。数据集通过Google Maps API收集地理信息,并采用多轮处理和严格的质量控制流程,确保数据的多样性和准确性。
特点
TravelQA数据集以其全面的多模态覆盖和高质量标注脱颖而出。它不仅包含丰富的文本问答对,还整合了大量地图截图和场景照片,覆盖了全球多个主要城市的旅游景点、餐饮、住宿等六大类别。数据集的问答对平均长度适中,既保证了信息的详细性,又确保了实用性。此外,数据集在视觉和文本模态之间建立了紧密的联系,为旅行领域的多模态研究提供了宝贵资源。
使用方法
TravelQA数据集适用于训练和评估多模态大语言模型在旅行领域的性能。研究人员可以利用其文本和视觉问答对进行模型微调,提升模型在旅行推荐、地图理解和场景解析等任务中的表现。数据集的结构化设计和平衡的模态分布使其成为开发智能旅行助手的理想选择,同时也为跨模态学习研究提供了丰富的实验材料。
背景与挑战
背景概述
TravelQA数据集由香港科技大学、香港中文大学和上海人工智能实验室的研究团队于2025年共同创建,旨在解决旅游规划领域多模态人工智能系统的专业化知识不足问题。作为首个面向旅游场景的大规模多模态问答数据集,其核心创新在于整合了13万文本问答对和9万视觉语言问答对,覆盖全球主要旅游城市的景点、餐饮、住宿等六大类别。该数据集通过融合真实旅行论坛数据与GPT增强回答,结合地图理解和场景识别的视觉内容,显著提升了多模态大语言模型在旅游领域的理解能力,为构建实用型AI旅行助手奠定了数据基础。
当前挑战
该数据集面临的核心挑战体现在两个方面:领域问题层面,需解决旅游场景特有的多模态对齐难题,包括自然语言描述与视觉场景的关联映射、时空信息与地理坐标的精确匹配,以及文化背景知识在跨地域推荐中的适应性调整;构建过程层面,存在真实旅行数据的碎片化清洗难题,需平衡用户生成内容的质量控制与语义多样性,同时要克服地图截图与场景照片的标注一致性挑战,确保90k视觉问答对中地理位置标记与文本描述的精确对应。
常用场景
实际应用
在实际旅行服务中,基于TravelQA训练的TraveLLaMA系统已展现出卓越的商用价值。当用户提交包含预算约束、成员数量和多张目的地照片的复合请求时,系统能自动识别图像中的地标建筑,结合实时API数据生成包含交通接驳、餐饮推荐的分时行程表。某案例显示,其对纽约三日游的规划在保持1500美元预算前提下,准确整合了布鲁克林大桥免费步行与切尔西市场用餐等差异化需求,较通用模型节省用户40%的决策时间。
衍生相关工作
该数据集催生了多个里程碑式研究,包括融合视觉定位的GeoReasoner系统、支持多日行程联调的TravelPlanner框架,以及专门处理文化语境差异的CulTravel模型。其中最具代表性的是获得ACL 2024最佳论文奖的TouristVision,其创新的跨模态注意力机制直接受TravelQA中地图-照片配对数据启发,在巴塞罗那等城市的实地测试中,景点识别准确率较基线提升17.3%。这些衍生工作共同构成了新一代旅游人工智能的技术矩阵。
以上内容由遇见数据集搜集并总结生成



