VisGraphVar Dataset

github2024-12-05 更新2024-12-11 收录

下载链接：

https://github.com/camilochs/visgraphvar

下载链接

链接失效反馈

官方服务：

资源简介：

VisGraphVar数据集是一个用于评估大型视觉语言模型（LVLMs）在七个与图表相关的视觉任务中能力的基准生成器。该数据集包含990张生成的图表图像，用于测试六个LVLMs的性能，揭示了基于视觉属性和缺陷的显著性能变化，突出了当前模型与人类分析相比的局限性。

The VisGraphVar dataset is a benchmark generator for evaluating the capabilities of large vision-language models (LVLMs) across seven chart-related visual tasks. This dataset comprises 990 generated chart images, which are utilized to test the performance of six LVLMs. It reveals significant performance variations based on visual attributes and flaws, and highlights the limitations of current models compared to human analysis.

创建时间：

2024-11-16

原始信息汇总

VisGraphVar 数据集

数据集概述

VisGraphVar 是一个用于评估大型视觉-语言模型（LVLMs）在七个与图相关的视觉任务中表现的数据集生成器。该数据集包含990张生成的图图像，用于测试六种LVLMs的性能，揭示了视觉属性和不完美性对模型性能的显著影响。

数据集获取

数据集可在 Huggingface 上获取。

数据集使用

生成新基准

通过运行指定模块任务生成视觉图基准。
每个任务的配置在 config.yaml 文件中。

评估生成的数据集

生成的图像存储在 visgraphvar/ 文件夹中，作为 evaluator/config.yaml 中的 benchmark_path。
评估器位于 evaluator/ 文件夹中。
在 evaluator/utils/config.yaml 文件中添加 OpenRouter API。
在 evaluator/main.py 文件中选择要运行的任务。
每个任务的结果存储在 evaluator/tasks/<任务名称>/evaluations/ 文件夹中。

补充材料

实验结果的补充材料可在 supplementary/ 文件夹中找到。

引用

@misc{sartori2024visgraphvarbenchmarkgeneratorassessing, title={VisGraphVar: A Benchmark Generator for Assessing Variability in Graph Analysis Using Large Vision-Language Models}, author={Camilo Chacón Sartori and Christian Blum and Filippo Bistaffa}, year={2024}, eprint={2411.14832}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2411.14832}, }

搜集汇总

数据集介绍

构建方式

VisGraphVar数据集通过生成包含七种不同图相关视觉任务的图像，系统地评估了大型视觉-语言模型（LVLMs）在处理图分析任务时的性能。该数据集的构建基于对六种LVLMs的测试，生成了990张图图像，涵盖了视觉属性和不完美性对模型性能的影响。通过这种方式，VisGraphVar不仅揭示了当前模型的局限性，还为开发更强大的视觉分析系统提供了指导。

使用方法

使用VisGraphVar数据集时，用户可以通过配置`config.yaml`文件来生成特定任务的图图像，并利用`evaluator`模块对生成的数据集进行评估。具体操作包括运行`python3.11 -m visgraphvar.detection.main`以生成图像，并在`evaluator/main.py`中选择任务进行评估。评估结果将存储在`evaluator/tasks/detection/evaluations/`目录下。通过这种方式，用户可以系统地分析LVLMs在不同视觉任务中的表现，并根据结果进行模型优化。

背景与挑战

背景概述

VisGraphVar数据集由Camilo Chacón Sartori、Christian Blum和Filippo Bistaffa等研究人员于2024年创建，旨在评估大型视觉-语言模型（LVLMs）在处理视觉图相关任务时的性能变异性。该数据集通过生成990张图图像，涵盖了七个与图相关的视觉任务，揭示了LVLMs在处理视觉属性及不完美性时的显著性能差异。这一研究不仅强调了现有模型在视觉分析中的局限性，还为开发更强大的视觉分析系统提供了指导，推动了视觉-语言模型在复杂任务中的应用与发展。

当前挑战

VisGraphVar数据集面临的挑战主要集中在两个方面：首先，如何有效评估LVLMs在处理视觉图任务时的性能变异性，尤其是在面对视觉属性及不完美性时的表现；其次，数据集的构建过程中，如何生成具有代表性的图图像，并确保这些图像能够充分反映模型在不同任务中的表现差异。此外，评估过程中还需考虑如何设计合理的评估框架，以准确捕捉模型在不同任务中的性能变化，从而为模型的改进提供有力依据。

常用场景

经典使用场景

VisGraphVar数据集在评估视觉图分析中的变异性方面展现了其经典应用场景。该数据集通过生成990张图表图像，用于测试六种大型视觉语言模型（LVLMs）在七种图相关视觉任务中的表现。这些任务涵盖了从图表检测到复杂视觉推理的多个方面，旨在揭示模型在处理视觉属性变化和不完美情况时的性能差异。

解决学术问题

VisGraphVar数据集解决了当前视觉语言模型在图分析中对视觉变异性处理不足的学术问题。通过系统地评估模型在不同视觉条件下的表现，该数据集揭示了现有模型与人类分析能力之间的差距，强调了在推理任务之外进行全面测试的必要性，为开发更鲁棒的视觉分析系统提供了理论依据。

实际应用

在实际应用中，VisGraphVar数据集可用于指导视觉语言模型的优化和改进。例如，在自动化数据分析、智能辅助决策系统以及教育领域的可视化教学工具中，该数据集能够帮助开发者识别和解决模型在处理复杂视觉信息时的不足，从而提升系统的可靠性和准确性。

数据集最近研究