Plot Understanding Benchmark (PUB)

Name: Plot Understanding Benchmark (PUB)
Creator: Ideas NCBR, 罗兹工业大学, 华沙大学
Published: 2024-09-04 19:19:17
License: 暂无描述

arXiv2024-09-04 更新2024-09-06 收录

下载链接：

http://arxiv.org/abs/2409.02617v1

下载链接

链接失效反馈

官方服务：

资源简介：

Plot Understanding Benchmark (PUB) 是一个用于评估大型语言模型在合成视觉数据解释能力的新型数据集。该数据集由Ideas NCBR、罗兹工业大学和华沙大学联合创建，旨在全面覆盖现实世界中的各种数据可视化场景，包括时间序列、直方图、小提琴图、箱线图和聚类图等。数据集通过控制参数自动生成，确保数据的新颖性和无污染性，从而实现对模型真实解释能力的无偏评估。PUB数据集的应用领域广泛，包括自动化数据分析、科学研究、教育工具和商业智能应用，旨在提升语言模型在复杂视觉数据解释中的表现。

Plot Understanding Benchmark (PUB) is a novel dataset for evaluating the interpretive capabilities of large language models on synthetic visual data. Co-developed by Ideas NCBR, Lodz University of Technology, and the University of Warsaw, this dataset is designed to comprehensively cover diverse real-world data visualization scenarios, including time series, histograms, violin plots, box plots, cluster plots, and more. Automatically generated via controlled parameters, the dataset ensures its novelty and freedom from contamination, thus enabling unbiased assessment of the model's genuine interpretive abilities. The PUB dataset has broad application prospects, covering automated data analysis, scientific research, educational tools, and business intelligence applications, with the goal of improving the performance of language models in interpreting complex visual data.

提供机构：

Ideas NCBR, 罗兹工业大学, 华沙大学

创建时间：

2024-09-04

搜集汇总

数据集介绍

构建方式

PUB数据集的构建采用了一系列精心设计的合成数据生成方法，旨在全面覆盖现实世界中的潜在场景。数据集涵盖了多种数据可视化形式，包括时间序列、直方图、小提琴图、箱线图和聚类图。为了确保数据集的多样性和现实性，研究人员使用了随机游走过程、几何随机游走、数据平滑、异常引入等技术。此外，数据集还通过添加噪声、旋转和图像叠加等方法进行图像退化，以评估模型在不同条件下的图像解读能力。这些合成数据均采用自动生成方式，确保了数据集的新颖性和模型评价的公正性。

使用方法

PUB数据集的使用方法主要包括以下几个方面：首先，研究人员可以根据需要选择不同的数据可视化形式进行模型训练和评价。其次，数据集提供的图像退化技术可以帮助研究人员评估模型在不同条件下的图像解读能力。此外，PUB数据集还引入了定量指标，研究人员可以使用这些指标来评估模型的性能，并与其他模型进行比较。最后，数据集的合成数据生成方法可以帮助研究人员快速生成大量数据，以支持大规模的模型训练和评价。

背景与挑战

背景概述

在当今大数据时代，大型语言模型（LLMs）在理解和生成人类语言方面展现出惊人的能力。然而，将这些能力扩展到多模态任务，特别是视觉数据分析领域，仍然是LLMs面临的一大挑战。为了解决这一挑战，Piotr Sankowski等研究人员于2024年创建了一个名为Plot Understanding Benchmark (PUB)的合成数据集，旨在评估LLMs在各种数据可视化形式上的解释能力，包括时间序列图、直方图、小提琴图、箱线图和聚类图。该数据集使用受控参数生成，以确保涵盖潜在的真实世界场景，并通过多模态文本提示来评估包括ChatGPT和Gemini在内的多个最先进的模型。PUB数据集的引入为未来研究和开发奠定了基础，旨在提高语言模型的视觉解释能力，并有望在自动化数据分析、科学研究、教育工具和商业智能应用等领域发挥重要作用。

当前挑战

PUB数据集面临的挑战主要包括：1)解决领域问题：LLMs在解释和分析复杂视觉数据表示方面存在显著挑战，特别是在时间序列图、聚类图、直方图、箱线图和小提琴图等领域。2)构建过程中的挑战：数据集的构建过程中需要解决数据污染问题，即避免模型在训练或评估过程中遇到之前接触过的数据。此外，数据集的生成需要确保全面覆盖潜在的真实世界场景，并通过多模态文本提示和定量指标来评估模型的性能，从而实现无偏见的评估。

常用场景

经典使用场景

PUB数据集被广泛应用于评估大型语言模型（LLM）在解释各种形式的数据可视化方面的能力。该数据集包含了时间序列、直方图、小提琴图、箱型图和聚类等多种数据可视化形式，通过控制参数生成，确保了对潜在现实世界场景的全面覆盖。PUB数据集采用多模态文本提示，以问题相关的视觉数据图像来评估多个最先进的模型，如ChatGPT或Gemini，评估其对数据的理解和解释准确性。此外，为了确保数据完整性，该基准数据集是自动生成的，完全新颖且未暴露于被测试的模型，从而能够评估模型真正理解和解释数据的能力，消除预学习响应的可能性，并允许对模型的潜力进行无偏评估。

解决学术问题

PUB数据集解决了当前LLM在解释和识别复杂视觉数据表示方面存在的挑战。通过使用受控参数生成的合成数据集，该数据集提供了一个标准化和公正的评估工具，用于评估LLM在处理和解释不同类型的数据可视化方面的能力。PUB数据集的引入有助于推动LLM在视觉数据解释方面的发展，并为未来研究提供了基础基准，以进一步提高语言模型在视觉解释方面的能力。

实际应用

PUB数据集在实际应用中具有重要意义。通过评估LLM在解释各种类型的数据可视化方面的能力，PUB数据集可以帮助开发人员改进和优化LLM的视觉解释能力，使其在自动化数据分析、科学研究、教育工具和商业智能应用等领域发挥更大的作用。此外，PUB数据集还可以用于评估和比较不同LLM的性能，为研究人员提供有关LLM在视觉解释方面的优势和不足的宝贵见解，从而促进LLM的进一步发展和应用。

数据集最近研究