SincereX/ChartBench-Demo

Name: SincereX/ChartBench-Demo
Creator: SincereX
Published: 2024-01-29 11:10:05
License: 暂无描述

Hugging Face2024-01-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SincereX/ChartBench-Demo

下载链接

链接失效反馈

官方服务：

资源简介：

ChartBench是一个用于评估多模态大语言模型（MLLMs）在图表识别方面能力的基准数据集。该数据集通过改进的*Acc+*指标来避免随机猜测的情况，并包含大量未标注的图表数据，以测试MLLM在没有标注数据点的情况下解释视觉信息的能力。数据集的开源计划包括评估脚本、推理脚本和部分演示数据。

提供机构：

SincereX

原始信息汇总

ChartBench: A Benchmark for Complex Visual Reasoning in Charts

简介

我们提出了具有挑战性的ChartBench，用于评估大型语言模型（MLLMs）的图表识别能力。

改进了*Acc+*指标，以避免随机猜测的情况。
收集了更大规模的无标签图表数据集，强调MLLM在无需标注数据点的情况下解释视觉信息的能力。

待办事项

[ ] 开放ChartBench的所有数据。
[x] 开放评估脚本。
[x] 开放推理脚本。
[x] 开放演示数据（10%）。

推理步骤

完成基本环境设置。
在./Repos/myprompt.py中设置task_name，例如test或BLIP2_Style。
在./Repos/myprompt.py中选择或设置所需的系统提示。
修改./Repos/{MODEL_NAME}/run.py中的默认CKPT_PATH路径。
按照./Scripts/inference.sh中的命令格式运行run.py。
结果默认保存在./Eval/{task_name}/{MODEL_NAME}中。
在./Scripts/stat_acc_plus.py中设置参数，统计结果保存在./Eval/{task_name}/Eval_Result中。

引用

bib @article{ChartBench, title={ChartBench: A Benchmark for Complex Visual Reasoning in Charts}, author={Zhengzhuo Xu and Sinan Du and Yiyan Qi and Chengjin Xu and Chun Yuan and Jian Guo}, journal={ArXiv}, year={2023}, volume={abs/2312.15915}, url={https://api.semanticscholar.org/CorpusID:266550948} }

搜集汇总

数据集介绍

背景与挑战

背景概述

ChartBench-Demo是ChartBench基准的演示数据集，专门用于评估多模态大型语言模型（MLLMs）在图表识别和复杂视觉推理方面的性能。该数据集包含214个图像和文本样本，总大小为33.8 MB，基于ArXiv论文'ChartBench: A Benchmark for Complex Visual Reasoning in Charts'（2023年发布），旨在通过改进的Acc+指标和未标注图表集合来测试模型解释视觉信息的能力，避免随机猜测，并作为开源基准的一部分提供演示数据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集