five

VTS-SQL

收藏
arXiv2025-05-02 更新2025-05-08 收录
下载链接:
https://huggingface.co/datasets/PassbyGrocer/vts-sql
下载链接
链接失效反馈
官方服务:
资源简介:
VTS-SQL数据集是为了支持船舶交通服务(VTS)中的知识增强文本到SQL任务而构建的。数据集包括一个自定义模式的结构化船舶数据库、一个外部海事知识语料库和一个包含不同语言风格的查询-SQL测试集。该数据集支持对风险船舶的识别,结合了结构化的船舶数据库和外部海事知识。

The VTS-SQL dataset is constructed to support knowledge-augmented text-to-SQL tasks in vessel traffic service (VTS) scenarios. It includes a structured vessel database with a custom schema, an external maritime knowledge corpus, and a query-SQL test set covering diverse linguistic styles. This dataset supports the identification of risk vessels by integrating the structured vessel database and external maritime knowledge.
提供机构:
新加坡高性能计算研究院(A*STAR IHPC), 新加坡国立大学, 上海大学
创建时间:
2025-05-02
搜集汇总
数据集介绍
main_image_url
构建方式
VTS-SQL数据集的构建基于船舶交通服务(VTS)领域的实际需求,通过整合结构化船舶数据库与外部海事知识库,形成一个多模态基准数据集。具体而言,该数据集包含三个核心组成部分:一个定制化的关系型数据库(MySQL 8.0实现),涵盖船舶动态属性与地理空间数据;一个海事文本知识检索语料库,用于注入领域专业知识;以及一个覆盖多种语言风格的查询-SQL配对测试集,包括命令式、操作式和正式自然语言表达。数据采集过程通过与专业VTS操作员合作,确保查询类型真实反映实际场景需求。
使用方法
该数据集主要用于评估知识增强型Text-to-SQL模型在VTS场景下的性能。使用时需结合提出的语义代数中间表示(SAIR)方法,将自然语言查询分解为空间操作、属性过滤等子任务。研究建议采用四阶段流程:首先通过NER模块识别查询中的海事实体,继而利用Agent机制注入领域知识,再通过SAIR生成中间代数表达式,最终经查询反思机制优化SQL输出。评估采用带惩罚系数的执行准确率指标,重点关注安全关键场景下的冗余筛选与漏检平衡。
背景与挑战
背景概述
VTS-SQL数据集由新加坡科技研究局高性能计算研究所(A*STAR IHPC)、新加坡国立大学和上海大学的研究团队于2025年联合发布,旨在解决船舶交通服务(VTS)领域中的实时交通管理难题。该数据集将高风险船舶识别任务重构为知识增强的Text-to-SQL任务,结合结构化船舶数据库与外部海事知识,支持多语言风格的查询-SQL测试集。其创新性在于首次将自然语言交互引入VTS领域,显著提升了操作员对复杂时空数据的探索效率,为海事安全管理的智能化转型奠定了基础。
当前挑战
该数据集面临双重挑战:领域问题层面需解决非标准化海事术语理解、动态地理围栏规则适配等专业壁垒,构建过程中则需克服多源异构数据融合的工程难题。具体表现为:1)操作员查询语言存在高度碎片化与领域特异性,导致传统NLP模型语义解析准确率下降35%;2)船舶数据库实体歧义(如同名港口识别)引发27%的SQL生成错误;3)多模态知识注入需平衡实时性(毫秒级响应)与完整性(覆盖156类海事规则)。实验表明,模型在命令式查询下的性能较正式语言下降17.12%,凸显了语言风格鲁棒性这一未充分研究的核心挑战。
常用场景
经典使用场景
VTS-SQL数据集在船舶交通服务(VTS)领域中被广泛应用于自然语言到SQL查询的转换任务。该数据集通过整合结构化船舶数据库与外部海事知识,支持复杂的时空推理和领域特定术语的解析。其典型使用场景包括风险船舶的早期识别、航行规则合规性检查以及多语言风格查询的自动化处理,显著提升了VTS操作员在实时交通管理中的决策效率。
解决学术问题
该数据集解决了海事领域中自然语言查询与结构化数据库交互的核心学术问题,包括领域自适应文本到SQL转换、多模态数据融合下的语义歧义消除,以及非标准语言风格(如命令式或片段化查询)的鲁棒性处理。其创新性的知识增强机制和语义代数中间表示方法,为复杂时空推理任务提供了可扩展的解决方案,填补了现有通用文本到SQL模型在专业领域的性能缺口。
实际应用
在实际应用中,VTS-SQL数据集支撑的智能代理系统已部署于港口监控中心,实现船舶动态的自动化分析。例如识别违规进入限制水域的大型油轮、预测船舶碰撞风险,以及生成实时交通告警。系统通过自然语言接口显著降低了操作员认知负荷,响应时间缩短40%,同时支持英语、中文等多语言查询,适应全球主要港口的多样化运营需求。
数据集最近研究
最新研究方向
近年来,VTS-SQL数据集在船舶交通服务(VTS)领域的研究方向主要集中在知识增强的文本到SQL任务上。随着全球航运量的增长和船舶交通复杂性的提升,VTS系统面临着时空推理和直观人机交互的挑战。该数据集通过结合结构化船舶数据库和外部海事知识,为风险船舶的识别提供了新的解决方案。前沿研究包括基于NER的关系推理、基于代理的领域知识注入、语义代数中间表示和查询重新思考机制,这些技术显著提升了模型在领域接地和上下文感知理解方面的性能。此外,该数据集首次实证了语言风格变化对文本到SQL建模的系统性挑战,为未来海事实时交通管理的自然语言接口研究奠定了基础。
相关研究论文
  • 1
    VTS-LLM: Domain-Adaptive LLM Agent for Enhancing Awareness in Vessel Traffic Services through Natural Language新加坡高性能计算研究院(A*STAR IHPC), 新加坡国立大学, 上海大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作