TrajVL

Name: TrajVL
Creator: 吉林大学, Macau University of Science and Technology, 微众银行AI
Published: 2025-04-23 10:15:52
License: 暂无描述

arXiv2025-04-23 更新2025-04-25 收录

下载链接：

http://arxiv.org/abs/2504.16358v1

下载链接

链接失效反馈

官方服务：

资源简介：

TrajVL是一个专门为Text-to-TrajVis任务设计的大型数据集，由吉林大学、澳门科技大学和微众银行AI共同构建。该数据集包含69,88个可视化实例和18,140个自然语言问题与TVL对。数据集的问题主要围绕地图、柱状图、折线图和饼图四种常见轨迹数据可视化类型。数据收集自GeoLife项目发布的GPS轨迹数据，通过结合地理位置和时间段信息，使用模板生成代表性的TVL种子数据，再通过树结构增加额外的查询约束以丰富数据集。最后，利用大型语言模型生成多种自然语言问题，并通过人工审核确保问题准确描述了对应的TVL。该数据集旨在促进轨迹感知的可视化分析研究。

TrajVL is a large-scale dataset specifically designed for the Text-to-TrajVis task, jointly constructed by Jilin University, Macau University of Science and Technology, and WeBank AI. It contains 6,988 visualization instances and 18,140 question-TVL pairs. The questions in the dataset mainly revolve around four common trajectory data visualization types: maps, bar charts, line charts, and pie charts. The dataset is collected from GPS trajectory data released by the GeoLife Project. First, representative TVL seed data is generated using templates by combining geographic location and time period information. Then, additional query constraints are added via tree structures to enrich the dataset. Finally, various natural language questions are generated using large language models, and manual reviews are performed to ensure that each question accurately describes its corresponding TVL. This dataset aims to facilitate research on trajectory-aware visual analytics.

提供机构：

吉林大学, Macau University of Science and Technology, 微众银行AI

创建时间：

2025-04-23

搜集汇总

数据集介绍

构建方式

在轨迹数据可视化领域，TrajVL数据集的构建采用了创新性的方法，结合了大型语言模型（LLMs）与人工校验的双重优势。研究团队首先设计了一种名为轨迹可视化语言（TVL）的专用查询语言，用于结构化地表达轨迹数据的查询与可视化需求。随后，通过系统化的流程生成TVL模板，并利用LLMs为每个TVL自动标注多样化的自然语言问题。为确保数据质量，生成的（问题，TVL）对经过严格的人工校验，最终形成了包含18,140组数据的大规模数据集。这一构建过程不仅高效，还确保了数据的多样性与准确性。

特点

TrajVL数据集作为首个面向文本到轨迹可视化（Text-to-TrajVis）任务的基准数据集，具有显著的特点。其核心在于覆盖了多种常见的可视化类型，包括地图、柱状图、折线图和饼图，其中地图类占比高达69.7%，充分反映了轨迹数据以空间呈现为主的特性。数据集还涵盖了9个省级区域的638个地理区域，时空信息丰富。此外，每个TVL对应2-3个语义一致但表述不同的自然语言问题，增强了模型的泛化能力。数据集的规模与多样性为评估LLMs在复杂时空语义理解上的表现提供了坚实基础。

使用方法

TrajVL数据集的使用聚焦于推动自然语言到轨迹可视化的技术研究。研究者可通过加载数据集，利用其（问题，TVL）对训练或评估模型在语义解析与代码生成上的能力。具体流程包括：将自然语言问题输入模型，生成TVL查询，再通过数据库执行查询并渲染可视化结果。实验设计支持分层评估，包括常规场景、复杂区域描述和时序描述三类测试集，以全面检验模型的时空推理能力。此外，数据集支持检索增强生成（RAG）技术，通过动态检索相似样本提升少样本学习效果，为后续研究提供了灵活的实验框架。

背景与挑战

背景概述

TrajVL数据集是由吉林大学、澳门科技大学和微众银行AI的研究团队于2025年提出的首个面向轨迹数据可视化自然语言交互的基准数据集。该数据集针对Text-to-TrajVis这一创新任务设计，旨在解决非专业用户难以通过传统方法进行轨迹数据可视化分析的核心问题。研究团队创新性地设计了轨迹可视化语言TVL作为中间表示，并采用大语言模型与人工校验相结合的构建方法，最终形成包含18,140个（自然语言问题，TVL）对的大规模数据集。其基础数据源自微软亚洲研究院的GeoLife GPS轨迹数据集，通过系统化扩展覆盖了地图、柱状图等四种可视化类型，显著推动了时空数据自然语言交互领域的研究进程。

当前挑战

TrajVL数据集面临双重挑战：在领域问题层面，需解决复杂时空语义解析的难题——现有模型在含嵌套时空约束的自然语言问题（如'展示过去一年北京市朝阳区早晚高峰通勤热力图'）上TVL生成准确率不足58%，凸显时空推理能力的不足。在构建过程层面，大语言模型生成的11.96%自然语言问题存在语义冗余，13.1%存在信息缺失，需设计差异化提示策略进行多轮修正。此外，原始轨迹数据属性单一性限制了查询约束树的复杂度，且测试集尚未覆盖全部现实场景中的时空描述变体，这些因素均对数据集的完备性提出持续优化要求。

常用场景

经典使用场景

TrajVL数据集在轨迹数据可视化领域具有广泛的应用价值，尤其在自然语言到可视化（NL2VIS）任务中表现突出。该数据集通过将自然语言问题转化为轨迹可视化语言（TVL），为研究人员提供了一个标准化的基准测试平台。其经典使用场景包括但不限于：基于自然语言查询的轨迹数据可视化生成、轨迹模式分析以及时空数据挖掘。通过TrajVL，研究人员能够快速验证和比较不同模型在轨迹数据可视化任务中的性能。

实际应用

TrajVL数据集在实际应用中展现了强大的潜力。在城市交通管理领域，它支持通过自然语言查询快速生成车辆轨迹的热力图或路径分布图，帮助交通规划者直观理解交通流量模式。在公共卫生领域，研究人员可以利用该数据集构建交互式可视化工具，追踪疾病传播路径或分析人群移动规律。此外，TrajVL还可用于智能导航系统的开发，用户通过自然语言指令即可获取个性化的轨迹可视化结果，极大提升了用户体验。

衍生相关工作

TrajVL数据集的发布催生了一系列相关研究工作。在模型架构方面，部分研究团队基于该数据集提出了针对时空数据优化的注意力机制，显著提升了LLMs在轨迹可视化任务中的表现。在应用扩展领域，有学者将TrajVL与多模态学习相结合，开发了支持语音和文本双模态输入的轨迹可视化系统。此外，该数据集还启发了对轨迹数据隐私保护的研究，一些工作探索了在保护用户隐私的前提下如何利用TrajVL进行有效的可视化分析。这些衍生工作共同推动了轨迹数据可视化领域的快速发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集