SincereX/ChartBench-Demo
收藏Hugging Face2024-01-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SincereX/ChartBench-Demo
下载链接
链接失效反馈官方服务:
资源简介:
ChartBench是一个用于评估多模态大语言模型(MLLMs)在图表识别方面能力的基准数据集。该数据集通过改进的*Acc+*指标来避免随机猜测的情况,并包含大量未标注的图表数据,以测试MLLM在没有标注数据点的情况下解释视觉信息的能力。数据集的开源计划包括评估脚本、推理脚本和部分演示数据。
ChartBench是一个用于评估多模态大语言模型(MLLMs)在图表识别方面能力的基准数据集。该数据集通过改进的*Acc+*指标来避免随机猜测的情况,并包含大量未标注的图表数据,以测试MLLM在没有标注数据点的情况下解释视觉信息的能力。数据集的开源计划包括评估脚本、推理脚本和部分演示数据。
提供机构:
SincereX
原始信息汇总
ChartBench: A Benchmark for Complex Visual Reasoning in Charts
简介
我们提出了具有挑战性的ChartBench,用于评估大型语言模型(MLLMs)的图表识别能力。
- 改进了*Acc+*指标,以避免随机猜测的情况。
- 收集了更大规模的无标签图表数据集,强调MLLM在无需标注数据点的情况下解释视觉信息的能力。
待办事项
- [ ] 开放ChartBench的所有数据。
- [x] 开放评估脚本。
- [x] 开放推理脚本。
- [x] 开放演示数据(10%)。
推理步骤
- 完成基本环境设置。
- 在
./Repos/myprompt.py中设置task_name,例如test或BLIP2_Style。 - 在
./Repos/myprompt.py中选择或设置所需的系统提示。 - 修改
./Repos/{MODEL_NAME}/run.py中的默认CKPT_PATH路径。 - 按照
./Scripts/inference.sh中的命令格式运行run.py。 - 结果默认保存在
./Eval/{task_name}/{MODEL_NAME}中。 - 在
./Scripts/stat_acc_plus.py中设置参数,统计结果保存在./Eval/{task_name}/Eval_Result中。
引用
bib @article{ChartBench, title={ChartBench: A Benchmark for Complex Visual Reasoning in Charts}, author={Zhengzhuo Xu and Sinan Du and Yiyan Qi and Chengjin Xu and Chun Yuan and Jian Guo}, journal={ArXiv}, year={2023}, volume={abs/2312.15915}, url={https://api.semanticscholar.org/CorpusID:266550948} }
搜集汇总
数据集介绍

背景与挑战
背景概述
ChartBench-Demo是ChartBench基准的演示数据集,专门用于评估多模态大型语言模型(MLLMs)在图表识别和复杂视觉推理方面的性能。该数据集包含214个图像和文本样本,总大小为33.8 MB,基于ArXiv论文'ChartBench: A Benchmark for Complex Visual Reasoning in Charts'(2023年发布),旨在通过改进的Acc+指标和未标注图表集合来测试模型解释视觉信息的能力,避免随机猜测,并作为开源基准的一部分提供演示数据。
以上内容由遇见数据集搜集并总结生成



