CLEGRV
收藏arXiv2025-02-13 更新2025-02-15 收录
下载链接:
https://github.com/pudumagico/NSGRAPH
下载链接
链接失效反馈官方服务:
资源简介:
CLEGRV数据集是由苏黎世联邦理工学院、维也纳工业大学和延雪平大学合作创建的,它基于现有的CLEGR数据集,通过生成图像版本的地铁网络图来扩展数据集。CLEGRV包含三种大小的图:小型(每线最多4个站)、中型(每线最多6个站)和大型(每线最多8个站),每个大小有100个图,每个图配有10个问题。该数据集旨在用于视觉图问答任务,挑战包括图的解析、标签识别和基于图像信息的推理。
The CLEGRV dataset was collaboratively developed by ETH Zurich, Vienna University of Technology, and Jönköping University. Built upon the existing CLEGR dataset, it expands the original resource by generating image-based subway network diagrams. CLEGRV includes graph instances of three size scales: small (up to 4 stations per line), medium (up to 6 stations per line), and large (up to 8 stations per line). Each scale has 100 graph samples, and each graph is paired with 10 questions. This dataset is designed for visual graph question answering tasks, with its core challenges including graph parsing, label recognition, and reasoning grounded in image information.
提供机构:
苏黎世联邦理工学院(ETH Zürich)、维也纳工业大学(TU Wien)、延雪平大学(Jönköping University)
创建时间:
2025-02-13
搜集汇总
数据集介绍

构建方式
CLEGRV数据集的构建方式是通过将CLEGR数据集中的符号图转换为图像形式,并添加与地铁线路相似的图形图像。该数据集旨在模拟现实世界中的视觉图问题回答(VGQA)场景,其中输入是图像而非符号形式。构建过程中使用了光学字符识别(OCR)神经网络来解析标签,并利用光学图识别(OGR)系统进行图解析。这些技术使得数据集能够包含更复杂的视觉信息,为视觉问答任务提供了更具挑战性的基准。
特点
CLEGRV数据集的特点在于其结合了视觉和自然语言处理模块,并利用回答集编程(ASP)进行推理。这使得数据集不仅能够处理图像中的图形结构,还能够理解自然语言问题,并从图像中提取信息来回答问题。此外,CLEGRV数据集包含了不同大小的图形,从小型(3条线路,每条线路最多4个站点)到大型(5条线路,每条线路最多8个站点),为研究提供了丰富的视觉问答场景。
使用方法
使用CLEGRV数据集的方法包括三个主要模块:视觉模块、语言模块和推理模块。视觉模块使用OGR进行图解析,OCR神经网络进行标签解析;语言模块使用正则表达式或大型语言模型(LLM)进行问题解析;推理模块使用ASP进行逻辑推理。用户可以根据需要选择不同的模型和算法来处理数据集,并评估其在视觉问答任务上的性能。
背景与挑战
背景概述
CLEGRV数据集是在2024年国际逻辑编程会议(ICLP 2024)上由Jakob Johannes Bauer、Thomas Eiter、Nelson Higuera Ruiz和Johannes Oetsch等人提出并构建的。该数据集旨在解决视觉图问答(VGQA)的问题,即如何对图像中的图形进行问答。CLEGRV数据集是基于CLEGR数据集的扩展,CLEGR数据集是一个用于图问答的合成数据集,其图形结构灵感来源于地铁网络。CLEGRV数据集通过添加类似于地铁线路的图形图像,将问题升级为处理图像中图形结构的问答任务。该数据集的创建对视觉问答和神经符号系统的研究具有重要意义,为解决复杂视觉问答任务提供了新的基准。
当前挑战
CLEGRV数据集面临的挑战主要包括:1) 图形解析:需要从图像中解析出图形的节点和边,这是视觉模块需要解决的关键问题;2) 标签理解:需要读取并理解图像中的标签,并将其与图形的节点关联起来,这是语言模块需要解决的问题;3) 问答推理:需要理解自然语言问题,并基于从图像中提取的信息进行推理,以回答问题,这是推理模块需要解决的问题。为了解决这些挑战,研究团队提出了一种模块化的神经符号方法,结合了光学图形识别(OGR)进行图形解析,预训练的光学字符识别(OCR)神经网络进行标签解析,以及大型语言模型(LLM)进行语言处理,并使用ASP进行推理。这种方法在CLEGRV数据集上取得了平均73%的准确率,证明了模块化神经符号系统在解决复杂视觉问答任务方面的潜力。
常用场景
经典使用场景
CLEGRV数据集主要用于视觉图问题回答(Visual Graph Question Answering,VGQA)任务,其中输入是图像中的图形,而不是符号形式的图形。该数据集基于现有的CLEGR数据集,增加了类似于地铁线路的图形图像。CLEGRV数据集包含三种大小的图形:小型、中型和大型,每个图形都有10个问题。数据集的目的是为了评估和改进在图像中解析图形、识别节点和边、理解标签并将其与图形节点关联的能力,以及使用自然语言处理和逻辑推理来回答问题的方法。
实际应用
CLEGRV数据集的实际应用场景包括但不限于交通网络信息查询、地图导航、智能城市规划和监控等。通过使用CLEGRV数据集训练的模型,可以实现对图像中图形的自动解析和问题回答,为用户提供更便捷和高效的服务。例如,在城市规划中,可以使用CLEGRV数据集训练的模型来分析交通网络,为城市规划者提供决策支持。在监控领域,CLEGRV数据集可以用于识别和追踪图像中的图形,以帮助监控人员及时发现异常情况。
衍生相关工作
CLEGRV数据集的引入衍生了多项相关工作,包括但不限于使用LLM进行语义解析、神经符号模型在VGQA任务中的应用以及逻辑编程在推理中的作用。其中,使用LLM进行语义解析的研究表明,LLM可以有效地将自然语言问题解析为逻辑形式,为VGQA任务提供了一种新的解决方案。神经符号模型在VGQA任务中的应用研究表明,神经符号模型可以有效地将视觉和自然语言信息进行融合,并使用逻辑编程进行推理,为VGQA任务提供了一种新的思路。逻辑编程在推理中的作用研究表明,逻辑编程可以有效地表示和推理问题中的知识,为VGQA任务提供了一种新的推理方法。
以上内容由遇见数据集搜集并总结生成



