TurtleBench
收藏TurtleBench: 视觉编程基准测试
数据集概述
TurtleBench 是一个用于评估大型多模态模型(LMMs)在解释几何图案并生成精确代码输出能力的基准测试。该基准测试受乌龟几何学的启发,旨在通过视觉示例、文本指令或两者的结合,评估模型在几何图案理解和代码生成方面的表现。
任务类型
- 多模态任务:包括图像到代码、视觉推理等。
- 模型支持:支持 GPT-4V、Gemini 1.5 flash、llava_13B 等模型。
数据集结构
数据集的结构如下:
├── {id}
│ ├── QA
│ │ ├── code
│ │ │ ├── q1_code.txt
│ │ │ ├── q2_code.txt
│ │ │
...
│ │ └── text
│ │ ├── q1.txt
│ │ ├── q2.txt
│ │ │
...
│ ├── description.txt
│ ├── image
│ │ └── {id}.png
│ ├── result_image
│ │ ├── q1_image.png
│ │ ├── q2_image.png
│ │ │
│ │ │
│ ...
│ └── variables.txt
│
每个任务目录包含一个基础图像和不同调整任务的查询。variables.txt 文件提供了创建形状所需的变量。description.txt 文件包含基础图像的文本描述。
评估结果
| 任务类型 / 模态 | Scratch T | Scratch I | Scratch I + T | Tweak CG I + T | Tweak CE I + T | Tweak CE I + I | Runnable |
|---|---|---|---|---|---|---|---|
| GPT-4o/basic | 37.04 | 16.03 | 37.98 | 17.69 | 18.12 | 12.06 | 99.21 |
| GPT-4o/CoT | 38.12 | 19.23 | 40.18 | 20.00 | 19.61 | 13.84 | 99.85 |
| GPT-4o/4-S | NA | 21.49 | NA | NA | NA | NA | 99.85 |
| Gemini/basic | 25.09 | 7.71 | 22.22 | 3.85 | 12.00 | 3.00 | 99.13 |
| Gemini/CoT | 18.51 | 9.20 | 20.52 | 7.10 | 23.08 | 11.84 | 99.94 |
| Gemini/4-S | NA | 10.18 | NA | NA | NA | NA | 99.92 |
| Llava/basic | 6.01 | 0.82 | 0.03 | 1.09 | 0.03 | 0.03 | 69.13 |
| Llava/CoT | 6.22 | 0.98 | 1.02 | 0.92 | 1.09 | 1.02 | 72.34 |
评估方法
通过运行 eval.py 脚本,可以选择模型(如 GPT4-V 和 Gemini 1.0 Pro)进行评估,并根据 task_type 和 task_mode 变量选择部分基准进行测试。评估结果将保存在 reports/report.csv 文件中。
贡献者
该工作由以下人员完成:




