five

SnapSQL-Bench

收藏
github2026-04-08 更新2026-04-08 收录
下载链接:
https://github.com/yshihao-ai/SnapSQLBench
下载链接
链接失效反馈
官方服务:
资源简介:
SnapSQL-Bench是一个全面的基准测试,旨在评估视觉文本到SQL系统。它包含两个互补的组件,共860个复杂查询和1,369张图像。第一个组件是从专家策划的文本到SQL基准(如BIRD)改编而来,引入了真实世界的视觉噪声;第二个组件是通过LLM规划和人工注释从头构建,以测试模型是否能利用特定的视觉推理线索。

SnapSQL-Bench is a comprehensive benchmark designed to evaluate vision-text-to-SQL systems. It comprises two complementary components, totaling 860 complex queries and 1,369 images. The first component is adapted from expert-curated text-to-SQL benchmarks such as BIRD, and introduces real-world visual noise. The second component is constructed from scratch via LLM planning and manual annotation, aiming to test whether models can leverage specific visual reasoning cues.
创建时间:
2026-04-01
原始信息汇总

SnapSQL-Bench 数据集概述

数据集基本信息

  • 数据集名称: SnapSQL-Bench
  • 官方仓库地址: https://github.com/yshihao-ai/SnapSQLBench
  • 数据集托管地址: https://huggingface.co/datasets/yshihao/SnapSQLBench
  • 许可证: Apache 2.0
  • 编程语言: Python 3.12

数据集目的与简介

SnapSQL-Bench 是一个全面的基准测试,旨在评估视觉文本到 SQL 系统。它旨在解决现实世界中大量结构化表格数据被困在截图、PDF 和照片等非交互式视觉格式中的“视觉隔离”问题,使数据无法进行自动化分析和即席查询。该基准测试通过系统性地评估对现实表格图像损坏的鲁棒性以及对任务相关视觉线索的推理能力来弥补现有基准的不足。

基准构建与组成

数据集包含两个互补的组成部分,总计包含 1,369 张图像上的 860 个复杂查询:

  1. 转换集: 改编自专家策划的文本到 SQL 基准测试。引入了现实世界的视觉噪声,同时忠实地保留了原始复杂的 SQL 推理模式,并模拟了受限的视口。
  2. 合成集: 通过 LLM 规划和人工标注从头构建,旨在明确测试模型是否能利用特定的视觉推理线索,包括:
    • 语义高亮
    • 分层布局
    • 外围注释

评估范式

代码库支持三种不同的视觉文本到 SQL 评估范式:

  1. 端到端: 单个视觉语言模型直接从图像生成数据库模式、内容和最终的 SQL 查询。
  2. 流水线: 将视觉表格解析与 SQL 生成分离。
  3. VisualCueSQL: 明确地从表格图像中提取视觉观察结果,将其转换为纯文本证据,并整合此证据以指导下游 SQL 推理。

主要实验结果

在 SnapSQL-Bench 上进行的大量实验表明,当前的视觉语言模型在处理视觉隔离问题上存在困难,而提出的 VisualCueSQL 方法 consistently yields sizable improvements。实验结果以模式、视觉语言模型主干、文本到 SQL 模型为维度,展示了在简单、中等、困难难度及总体上的模式准确率、内容准确率和执行准确率。

仓库结构

SnapSQL/ ├── main_end2end.py # 端到端范式的入口点 ├── main_pipeline.py # 流水线范式的入口点 ├── main_visualcue.py # VisualCueSQL 范式的入口点 ├── models/ # 视觉语言模型和文本到 SQL 模型的封装 ├── configs/ # 简单/中等/困难拆分的 YAML 配置文件 │ ├── e2e/
│ └── pipeline_and_visualcue/ ├── utils/ # 数据集加载器、提示词、评估器、数据库构建器

安装与快速开始

  1. 克隆仓库并创建环境: bash git clone https://github.com/yshihao-ai/SnapSQLBench.git cd SnapSQL conda create -n SnapSQL python=3.12 conda activate SnapSQL pip install -r requirements.txt

  2. 运行评估:

    • 端到端评估: python main_end2end.py --config configs/e2e/e2e_hard.yaml
    • 流水线评估: python main_pipeline.py --config configs/pipeline_and_visualcue/middle/pipeline_middle_codes.yaml
    • VisualCueSQL 评估: python main_visualcue.py --config configs/pipeline_and_visualcue/hard/pipeline_hard_macsql.yaml
搜集汇总
数据集介绍
main_image_url
构建方式
在视觉文本到SQL任务的研究领域,数据集的构建需兼顾真实场景的复杂性与推理逻辑的严谨性。SnapSQL-Bench通过两种互补的集合构建而成:转换集源自专家精心整理的文本到SQL基准数据,通过引入下采样、模糊化、物理打印拍摄伪影及阴影等真实视觉噪声,在保留原始复杂SQL推理模式的同时模拟受限视口;合成集则借助大语言模型规划与人工标注从头创建,旨在显式测试模型对语义高亮、层次化布局及边缘注释等视觉推理线索的利用能力,最终形成包含1369张图像与860个复杂查询的综合性基准。
特点
该数据集的核心特征在于其系统性地融合了视觉鲁棒性与推理深度。它不仅模拟了现实世界中表格图像普遍存在的视觉退化现象,还专门设计了蕴含明确视觉线索的合成样本,以评估模型从视觉格式中提取并利用任务相关信号的能力。数据集支持端到端、流水线及VisualCueSQL三种评估范式,为比较不同视觉语言模型与文本到SQL代理的组合性能提供了统一框架。实验结果表明,现有模型在处理视觉隔离问题时仍面临挑战,而显式利用视觉线索的方法能显著提升可执行SQL的生成准确率。
使用方法
研究者可通过代码库提供的三种范式入口便捷地使用该数据集进行评估。端到端范式要求单一视觉语言模型直接从图像生成数据库模式、内容及最终SQL查询;流水线范式则将视觉表格解析与SQL生成分离,先利用视觉语言模型提取模式与内容,再交由独立的文本到SQL代理完成查询生成;VisualCueSQL范式则显式地从表格图像中提取视觉观察结果,将其转化为明文证据,并融入下游SQL推理过程。用户可通过配置相应的YAML文件,针对不同难度划分运行评估脚本,从而系统性地衡量模型在视觉文本到SQL任务上的综合性能。
背景与挑战
背景概述
在数据驱动的时代,大量结构化表格数据以截图、PDF或照片等非交互式视觉格式存在,形成了‘视觉隔离’现象,阻碍了自动化分析与即席查询。为应对这一挑战,SnapSQL-Bench应运而生,它是一个专为评估视觉文本到SQL系统而设计的综合性基准。该数据集由yshihao等研究人员构建,旨在系统评估模型对真实世界表格图像噪声的鲁棒性以及对任务相关视觉线索的推理能力。其核心研究问题聚焦于如何从视觉表格中准确解析并生成可执行的SQL查询,从而弥合视觉数据与结构化查询之间的鸿沟,对推动视觉语言模型在数据库交互领域的发展具有显著影响力。
当前挑战
视觉文本到SQL领域面临的核心挑战在于克服‘视觉隔离’,即从包含噪声、变形或复杂布局的表格图像中,精确提取语义信息并生成正确的SQL查询。具体而言,模型需处理真实场景中常见的图像退化问题,如下采样、模糊、阴影及打印拍摄伪影,同时还需理解视觉推理线索,如语义高亮、层次化布局和边缘注释。在数据集构建过程中,挑战体现在如何平衡数据真实性:既要引入多样化的视觉噪声以模拟现实条件,又要保持原始复杂SQL推理模式的保真度,并确保合成数据能有效测试模型对特定视觉线索的利用能力。
常用场景
经典使用场景
在数据科学领域,大量结构化表格数据以截图、PDF或照片等视觉格式存在,形成了所谓的“视觉隔离”困境。SnapSQL-Bench作为视觉文本到SQL的基准测试集,其经典使用场景在于系统评估模型从这些非交互式视觉表格中解析并生成可执行SQL查询的能力。该数据集通过引入真实世界的视觉噪声,如模糊、阴影和物理打印伪影,模拟了实际应用中常见的图像退化情况,从而为模型鲁棒性提供了严格的测试环境。
衍生相关工作
围绕SnapSQL-Bench,衍生出了一系列重要的研究工作。其中最具代表性的是该团队提出的VisualCueSQL方法,该方法创新地将视觉观察(如高亮、布局)转化为明文证据,以指导SQL合成,显著提升了可执行SQL的生成准确率。此外,该基准确立的三种评估范式——端到端、流水线和VisualCueSQL,为后续研究提供了清晰的架构对比基础,激励了更多关于视觉线索提取与SQL逻辑融合的算法探索,推动了视觉文本到SQL这一交叉领域的范式演进。
数据集最近研究
最新研究方向
在视觉语言模型与数据库交互的交叉领域,SnapSQL-Bench的推出标志着视觉文本到SQL任务迈入了系统化评估的新阶段。该数据集通过引入真实世界的视觉噪声和结构化视觉推理线索,精准地模拟了表格数据在截图、PDF等非交互式视觉格式中面临的“视觉隔离”挑战。前沿研究聚焦于探索如何有效融合视觉感知与逻辑推理,以提升模型从复杂表格图像中生成可执行SQL语句的能力。其中,VisualCueSQL范式通过显式提取并翻译视觉线索为文本证据,为下游SQL合成提供逻辑引导,显著改善了现有视觉语言模型在噪声环境下的鲁棒性与推理精度。这一进展不仅推动了跨模态信息理解技术的发展,也为金融报告分析、医疗数据查询等实际场景中自动化数据提取与交互提供了更为可靠的基准框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作