five

SincereX/ChartBench-Demo

收藏
Hugging Face2024-01-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SincereX/ChartBench-Demo
下载链接
链接失效反馈
官方服务:
资源简介:
ChartBench是一个用于评估多模态大语言模型(MLLMs)在图表识别方面能力的基准数据集。该数据集通过改进的*Acc+*指标来避免随机猜测的情况,并包含大量未标注的图表数据,以测试MLLM在没有标注数据点的情况下解释视觉信息的能力。数据集的开源计划包括评估脚本、推理脚本和部分演示数据。

ChartBench是一个用于评估多模态大语言模型(MLLMs)在图表识别方面能力的基准数据集。该数据集通过改进的*Acc+*指标来避免随机猜测的情况,并包含大量未标注的图表数据,以测试MLLM在没有标注数据点的情况下解释视觉信息的能力。数据集的开源计划包括评估脚本、推理脚本和部分演示数据。
提供机构:
SincereX
原始信息汇总

ChartBench: A Benchmark for Complex Visual Reasoning in Charts

简介

我们提出了具有挑战性的ChartBench,用于评估大型语言模型(MLLMs)的图表识别能力。

  • 改进了*Acc+*指标,以避免随机猜测的情况。
  • 收集了更大规模的无标签图表数据集,强调MLLM在无需标注数据点的情况下解释视觉信息的能力。

待办事项

  • [ ] 开放ChartBench的所有数据。
  • [x] 开放评估脚本。
  • [x] 开放推理脚本。
  • [x] 开放演示数据(10%)。

推理步骤

  1. 完成基本环境设置。
  2. ./Repos/myprompt.py中设置task_name,例如testBLIP2_Style
  3. ./Repos/myprompt.py中选择或设置所需的系统提示。
  4. 修改./Repos/{MODEL_NAME}/run.py中的默认CKPT_PATH路径。
  5. 按照./Scripts/inference.sh中的命令格式运行run.py
  6. 结果默认保存在./Eval/{task_name}/{MODEL_NAME}中。
  7. ./Scripts/stat_acc_plus.py中设置参数,统计结果保存在./Eval/{task_name}/Eval_Result中。

引用

bib @article{ChartBench, title={ChartBench: A Benchmark for Complex Visual Reasoning in Charts}, author={Zhengzhuo Xu and Sinan Du and Yiyan Qi and Chengjin Xu and Chun Yuan and Jian Guo}, journal={ArXiv}, year={2023}, volume={abs/2312.15915}, url={https://api.semanticscholar.org/CorpusID:266550948} }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
ChartBench-Demo是ChartBench基准的演示数据集,专门用于评估多模态大型语言模型(MLLMs)在图表识别和复杂视觉推理方面的性能。该数据集包含214个图像和文本样本,总大小为33.8 MB,基于ArXiv论文'ChartBench: A Benchmark for Complex Visual Reasoning in Charts'(2023年发布),旨在通过改进的Acc+指标和未标注图表集合来测试模型解释视觉信息的能力,避免随机猜测,并作为开源基准的一部分提供演示数据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作