five

Chart-Table-benchmark

收藏
魔搭社区2025-10-09 更新2025-10-11 收录
下载链接:
https://modelscope.cn/datasets/tkzzzzzz6/Chart-Table-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
数据集文件元信息以及数据文件,请浏览“数据集文件”页面获取。 当前数据集卡片使用的是默认模版,数据集的贡献者未提供更加详细的数据集介绍,但是您可以通过如下GIT Clone命令,或者ModelScope SDK来下载数据集 #### 下载方法 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"} # VLM Visualization Literacy Assessment This repository contains the implementation and evaluation framework for assessing visualization literacy capabilities of Visual Language Models (VLMs) using standardized tests VLAT and CALVI. The study provides a comprehensive comparison of four state-of-the-art VLMs' abilities to interpret, reason about, and critically analyze data visualizations. ## 🎯 Project Overview The project evaluates VLMs through: - Visualization Literacy Assessment Test (VLAT) - 53 multiple-choice items across 12 visualization types - Critical thinking Assessment for Literacy in Visualization (CALVI) - 45 items focused on misleading visualization elements - 10 randomized evaluation runs per model to ensure robust results ## 🤖 Models Evaluated | Model | Version | Provider | |-------|----------|----------| | GPT-4 Vision | GPT-4o | OpenAI | | Claude | 3.5 Sonnet | Anthropic | | Gemini | 1.5 Pro | Google | | Llama | 3.2-vision | Meta | All models are configured with: - Temperature: 0 - Max tokens: 300 ## 📁 Repository Structure ``` ├── README.md ├── data/ │ ├── VLAT/ # VLAT test images and questions │ └── CALVI/ # CALVI test images and questions ├── scripts/ │ ├── gpt4_evaluation.ipynb # GPT-4 Vision evaluation notebook │ ├── claude_evaluation.ipynb # Claude evaluation notebook │ ├── gemini_evaluation.ipynb # Gemini evaluation notebook │ ├── llama_evaluation.ipynb # Llama evaluation notebook ├── prompts/ │ ├── VLAT_prompt.txt # Standardized VLAT assessment prompt │ └── CALVI_prompt.txt # Standardized CALVI assessment prompt ├── Output/ │ ├── CALVI/ # model responses to CALVI questions │ ├── VLAT/ # model responses to VLAT questions ``` ## 🚀 Getting Started 1. Clone the repository: ```bash git clone https://github.com/washuvis/VisLit-VLM-Eval.git ``` 2. Install required dependencies: ```bash pip install -r requirements.txt ``` 3. Configure API keys: - Add your API keys for each VLM provider 4. Run evaluations: - Navigate to the `scripts` directory - Execute evaluation notebooks for each model

数据集文件元数据与数据文件,请前往「数据集文件」页面获取。 当前数据集卡片采用默认模板生成,数据集贡献者未提供更详细的数据集说明,但您可通过下述Git Clone命令或ModelScope SDK下载该数据集。 #### 下载方法 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"} # VLM可视化素养评估 本仓库包含了一套实现方案与评估框架,用于基于标准化测试可视化素养评估测试(Visualization Literacy Assessment Test, VLAT)与可视化素养批判性思维评估(Critical thinking Assessment for Literacy in Visualization, CALVI),评估视觉语言模型(Visual Language Models, VLMs)的可视化素养能力。本研究全面对比了四款当前前沿VLMs在解读、推理与批判性分析数据可视化作品方面的能力。 ## 🎯 项目概览 本项目通过以下方式评估VLMs: - 可视化素养评估测试(VLAT):涵盖12种可视化类型的53道选择题 - 可视化素养批判性思维评估(CALVI):聚焦误导性可视化元素的45道题目 - 对每个模型进行10次随机化评估运行,以确保实验结果具备稳健性 ## 🤖 评估模型 | 模型 | 版本 | 提供商 | |-------|----------|----------| | GPT-4 Vision | GPT-4o | OpenAI | | 克劳德(Claude) | 3.5 Sonnet | Anthropic | | Gemini | 1.5 Pro | Google | | Llama | 3.2-vision | Meta | 所有模型均采用如下配置: - 温度系数(Temperature):0 - 最大Token数:300 ## 📁 仓库结构 ├── README.md ├── data/ │ ├── VLAT/ # VLAT测试图像与问题 │ └── CALVI/ # CALVI测试图像与问题 ├── scripts/ │ ├── gpt4_evaluation.ipynb # GPT-4 Vision 评估脚本 │ ├── claude_evaluation.ipynb # 克劳德(Claude)评估脚本 │ ├── gemini_evaluation.ipynb # Gemini 评估脚本 │ ├── llama_evaluation.ipynb # Llama 评估脚本 ├── prompts/ │ ├── VLAT_prompt.txt # 标准化VLAT评估提示词 │ └── CALVI_prompt.txt # 标准化CALVI评估提示词 ├── Output/ │ ├── CALVI/ # 模型对CALVI题目的响应结果 │ ├── VLAT/ # 模型对VLAT题目的响应结果 ## 🚀 快速上手 1. 克隆本仓库: bash git clone https://github.com/washuvis/VisLit-VLM-Eval.git 2. 安装所需依赖: bash pip install -r requirements.txt 3. 配置API密钥: - 为各视觉语言模型提供商添加对应的API密钥 4. 运行评估: - 进入`scripts`目录 - 运行对应模型的评估脚本文件
提供机构:
maas
创建时间:
2025-10-09
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作