five

EvoChart-QA

收藏
arXiv2024-09-03 更新2024-09-06 收录
下载链接:
https://github.com/MuyeHuang/EvoChart
下载链接
链接失效反馈
官方服务:
资源简介:
EvoChart-QA是由西安交通大学开发的用于评估模型在真实世界图表理解能力的基准数据集。该数据集包含650个从140个不同网站收集的真实世界图表和1250个专家精心设计的问题,旨在全面测试模型的图表理解能力。数据集的创建过程采用了多阶段自训练方法,确保生成的数据具有高质量和多样性。EvoChart-QA主要应用于自动化数据分析和商业数据报告生成,旨在提高模型在复杂图表理解和视觉推理任务中的表现。

EvoChart-QA is a benchmark dataset developed by Xi'an Jiaotong University for evaluating models' real-world chart understanding capabilities. This dataset contains 650 real-world charts collected from 140 different websites and 1250 expert-curated questions, aiming to comprehensively test models' chart understanding abilities. The dataset was created using a multi-stage self-training method to ensure the generated data has high quality and diversity. EvoChart-QA is mainly applied in automated data analysis and commercial data report generation, with the goal of improving models' performance in complex chart understanding and visual reasoning tasks.
提供机构:
西安交通大学
创建时间:
2024-09-03
搜集汇总
数据集介绍
main_image_url
构建方式
EvoChart-QA数据集通过一种新颖的自训练方法构建,该方法结合了数据集构建和模型自训练,使用多阶段方法同时输出高质量的图表数据和图表理解模型。具体来说,数据集的构建分为三个迭代阶段:合成图表生成、图表评估与优化、问答对生成与训练。合成图表生成阶段通过两步策略生成具有多样化外观的高质量图表,包括图表代码种子生成和可组合图表生成器。图表评估与优化阶段通过图表评估器和行动空间来选择和优化图表,以确保数据质量和多样性。问答对生成与训练阶段则基于图表生成问题-答案对,并将这些数据纳入EvoChart语料库,用于训练EvoChart模型。
特点
EvoChart-QA数据集具有以下特点:首先,数据集包含650个独特的现实世界图表,这些图表从140个不同的网站上收集,覆盖了各种主题和风格,从而确保了数据的多样性和现实性。其次,数据集包含了1250个专家精心设计的问答对,这些问答对专注于图表理解,涵盖了图表的基本理解和复杂推理。此外,EvoChart-QA数据集采用了严格的评估指标,包括“严格”和“灵活”两种方法,以确保评估结果的准确性。
使用方法
使用EvoChart-QA数据集的方法如下:首先,需要从EvoChart-QA数据集的官方网站下载数据集。然后,可以使用数据集中的图表和问答对进行模型训练和评估。在训练过程中,可以使用自训练方法EvoChart来生成高质量的训练数据,并通过多阶段迭代来逐步提高模型的理解能力。在评估过程中,可以使用数据集中的问答对来测试模型在现实世界图表理解任务上的性能。此外,还可以使用数据集中的“严格”和“灵活”两种评估方法来评估模型回答问题的准确性。
背景与挑战
背景概述
在当今数据驱动的时代,图表理解成为了自动化数据分析的关键技术。图表理解不仅要求模型能够准确地解析视觉信息,还需要具备强大的视觉推理能力。然而,现有的视觉语言模型(VLMs)在图表理解方面虽然取得了一定的进展,但由于缺乏高质量的训练数据和全面的评估基准,这些模型在现实世界的图表理解能力上仍有待提高。为了解决这一问题,黄牧野等人于2024年9月提出了EvoChart,这是一种新颖的自训练方法,用于生成合成图表数据,以增强VLMs在现实世界图表理解方面的能力。他们还提出了EvoChart-QA,这是一个新的基准,用于衡量模型在现实世界场景中的图表理解能力。EvoChart-QA由650个独特的真实世界图表组成,这些图表来自140个不同的网站,以及1250个由专家策划的问题,这些问题专注于图表理解。实验结果表明,即使在EvoChart-QA上表现最好的私有模型GPT4o,其准确率也只有49.8%。此外,EvoChart方法显著提高了开源VLMs在现实世界图表理解任务上的性能,在EvoChart-QA上实现了54.2%的准确率。
当前挑战
EvoChart-QA数据集的创建旨在解决现实世界图表理解中的几个关键挑战。首先,当前VLMs在ChartQA数据集上的表现优于现实世界图表,这表明ChartQA数据集可能高估了当前模型的能力。其次,ChartQA数据集只包含来自四个图表来源的数据,且过于关注高级图表推理,这导致了模型容易过拟合。为了应对这些挑战,EvoChart-QA数据集采用了从140个不同网站收集的650个独特真实世界图表,以及由专家策划的1250个问题,这些问题涵盖了图表理解的基本层面。实验结果表明,即使在EvoChart-QA上表现最好的私有模型GPT4o,其准确率也只有49.8%。此外,EvoChart方法显著提高了开源VLMs在现实世界图表理解任务上的性能,在EvoChart-QA上实现了54.2%的准确率。这些结果表明,EvoChart-QA数据集提供了一个更具挑战性的基准,能够更准确地评估模型在现实世界图表理解方面的能力。
常用场景
经典使用场景
EvoChart-QA数据集主要用于评估视觉语言模型(VLMs)在现实世界图表理解任务中的能力。该数据集包含650个独特的现实世界图表和1250个由专家精心设计的问答对,涵盖了图表理解的基础知识。通过对各种开源和专有VLMs在EvoChart-QA上的测试,发现即使是最好的专有模型GPT4o也只达到了49.8%的准确率。此外,EvoChart方法显著提高了开源VLMs在现实世界图表理解任务上的性能,在EvoChart-QA上实现了54.2%的准确率。
解决学术问题
EvoChart-QA数据集解决了当前VLMs在图表理解方面的局限性。现有的VLMs在ChartQA数据集上的表现优于现实世界图表理解任务,这主要是因为ChartQA数据集只包含四个图表来源,且过于关注高级图表推理,导致模型缺乏对图表的全面理解。EvoChart-QA通过引入更多样化的现实世界图表和手动设计的问答对,提供了一个更全面和公正的评估基准,帮助研究人员更好地理解VLMs在图表理解方面的优势和不足。
衍生相关工作
EvoChart-QA数据集的提出和实验结果为VLMs在图表理解方面的研究提供了新的思路和方向。未来的研究可以进一步探索如何利用EvoChart-QA数据集来提高VLMs的图表理解能力,以及如何将EvoChart-QA数据集应用于更广泛的应用场景。此外,EvoChart-QA数据集的提出也为其他视觉语言模型的研究提供了借鉴和参考,有助于推动该领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作