TurtleBench

Name: TurtleBench
Creator: 加州大学欧文分校
Published: 2024-11-01 07:52:06
License: 暂无描述

arXiv2024-11-01 更新2024-11-06 收录

下载链接：

https://github.com/sinaris76/TurtleBench

下载链接

链接失效反馈

官方服务：

资源简介：

TurtleBench是一个专为评估大型多模态模型（LMMs）在几何图案理解和代码生成能力而设计的数据集。该数据集由加州大学欧文分校的研究团队创建，包含260个任务，涵盖了从简单的几何形状到复杂的图案生成。数据集的任务设计灵感来自海龟几何，旨在通过视觉和文本输入来测试模型生成精确代码的能力。创建过程中，研究团队手动设计了这些任务，确保每个任务都能准确无误地解决。TurtleBench的应用领域主要集中在教育、编程教学和人工智能模型的几何推理能力评估，旨在解决当前LMMs在直观视觉几何理解上的不足。

TurtleBench is a dataset specifically tailored for evaluating large multimodal models (LMMs) on their geometric pattern comprehension and code generation capabilities. Developed by a research team from the University of California, Irvine, this dataset comprises 260 tasks spanning from simple geometric shapes to intricate pattern generation. The task designs draw inspiration from turtle geometry, and the dataset is intended to test models' capacity to generate accurate code via both visual and textual inputs. During its development, the research team manually engineered each task to guarantee that every problem can be solved correctly. The primary application scenarios of TurtleBench cover education, programming instruction, and the assessment of geometric reasoning abilities of AI models, with the goal of addressing the current limitations of LMMs in intuitive visual geometric understanding.

提供机构：

加州大学欧文分校

创建时间：

2024-11-01

原始信息汇总

TurtleBench: 视觉编程基准测试

数据集概述

TurtleBench 是一个用于评估大型多模态模型（LMMs）在解释几何图案并生成精确代码输出能力的基准测试。该基准测试受乌龟几何学的启发，旨在通过视觉示例、文本指令或两者的结合，评估模型在几何图案理解和代码生成方面的表现。

任务类型

多模态任务：包括图像到代码、视觉推理等。
模型支持：支持 GPT-4V、Gemini 1.5 flash、llava_13B 等模型。

数据集结构

数据集的结构如下：

├── {id} │ ├── QA │ │ ├── code │ │ │ ├── q1_code.txt │ │ │ ├── q2_code.txt │ │ │ ... │ │ └── text │ │ ├── q1.txt │ │ ├── q2.txt │ │ │ ... │ ├── description.txt │ ├── image │ │ └── {id}.png │ ├── result_image │ │ ├── q1_image.png │ │ ├── q2_image.png │ │ │ │ │ │ │ ...
│ └── variables.txt │

每个任务目录包含一个基础图像和不同调整任务的查询。variables.txt 文件提供了创建形状所需的变量。description.txt 文件包含基础图像的文本描述。

评估结果

任务类型 / 模态	Scratch T	Scratch I	Scratch I + T	Tweak CG I + T	Tweak CE I + T	Tweak CE I + I	Runnable
GPT-4o/basic	37.04	16.03	37.98	17.69	18.12	12.06	99.21
GPT-4o/CoT	38.12	19.23	40.18	20.00	19.61	13.84	99.85
GPT-4o/4-S	NA	21.49	NA	NA	NA	NA	99.85
Gemini/basic	25.09	7.71	22.22	3.85	12.00	3.00	99.13
Gemini/CoT	18.51	9.20	20.52	7.10	23.08	11.84	99.94
Gemini/4-S	NA	10.18	NA	NA	NA	NA	99.92
Llava/basic	6.01	0.82	0.03	1.09	0.03	0.03	69.13
Llava/CoT	6.22	0.98	1.02	0.92	1.09	1.02	72.34

评估方法

通过运行 eval.py 脚本，可以选择模型（如 GPT4-V 和 Gemini 1.0 Pro）进行评估，并根据 task_type 和 task_mode 变量选择部分基准进行测试。评估结果将保存在 reports/report.csv 文件中。

贡献者

该工作由以下人员完成：

搜集汇总

数据集介绍

构建方式

TurtleBench 数据集的构建基于海龟几何学（Turtle Geometry），这是一种广泛用于儿童编程教育的概念。数据集包含260个手工制作的任务，涵盖了从图像到代码生成的多种模式。任务设计旨在评估大型多模态模型（LMMs）在视觉模式识别、数学推理、Python编程和抽象几何推理方面的能力。每个任务都包含一个黑白图像，展示一组抽象几何形状，并要求模型生成相应的Python Turtle代码。任务分为两种类型：Scratch任务和Tweak任务。Scratch任务要求模型根据提供的图像或文本描述生成代码，而Tweak任务则要求模型根据指令对现有形状进行修改。

特点

TurtleBench 数据集的显著特点是其任务的多样性和复杂性。任务涵盖了从简单的几何形状到复杂的图案，要求模型不仅识别图像中的形状，还要理解其背后的算法逻辑。数据集的设计确保了每个任务都是可解的，避免了模糊性和任意参数导致的错误。此外，数据集还通过提供图像和文本描述的组合输入，评估模型在多模态信息融合方面的能力。TurtleBench 的独特之处在于其专注于几何图案的解释和代码生成，填补了现有基准测试在这一领域的空白。

使用方法

TurtleBench 数据集主要用于评估和改进大型多模态模型（LMMs）在视觉编程任务中的表现。研究者可以使用该数据集来测试模型在生成Python Turtle代码方面的准确性和效率，通过对比模型生成的代码与标准答案的相似度来评估模型的性能。此外，数据集还可用于开发新的算法和模型，以提高模型在几何图案识别和代码生成任务中的表现。通过分析模型在不同类型任务中的表现，研究者可以深入了解模型在视觉和语言信息处理中的优势和不足，从而指导模型的进一步优化和改进。

背景与挑战

背景概述

TurtleBench，由加州大学欧文分校的Sina Rismanchian、Yasaman Razeghi、Sameer Singh和Shayan Doroudi等人于2024年创建，是一个专注于评估大型多模态模型（LMMs）在几何图案理解和代码生成能力上的视觉编程基准。该数据集的灵感来源于海龟几何，一种常用于儿童编程和几何概念教学的方法。TurtleBench通过提供视觉示例、文本指令或两者的结合，挑战模型生成精确的代码输出。其核心研究问题在于探索LMMs在直观视觉几何理解与编程知识结合任务中的表现，这一研究对推动AI在教育和技术领域的应用具有重要意义。

当前挑战

TurtleBench面临的挑战主要集中在两个方面。首先，解决领域问题时，LMMs在识别和生成几何图案代码方面的能力显著不足，如GPT-4o在简单任务中仅达到19%的准确率。其次，构建过程中，模型在处理视觉与文本信息的整合、以及在不熟悉语法下的泛化能力上表现不佳。例如，当使用与Python Turtle模块功能相同但命令名称不同的Rabbit类时，模型的性能大幅下降，表明其在视觉推理与编程输出转换中的局限性。此外，模型在处理复杂几何形状时的表现也揭示了其在视觉理解上的不足，进一步凸显了未来研究中需要解决的关键问题。

常用场景

经典使用场景

TurtleBench 作为一种视觉编程基准，主要用于评估大型多模态模型（LMMs）在海龟几何学中的表现。其经典使用场景包括通过视觉示例、文本指令或两者的结合，生成精确的代码输出。例如，模型可能被要求根据给定的几何图案图像生成相应的Python Turtle代码，或者根据文本描述生成代码。这种任务设计旨在测试模型在视觉模式识别、数学推理、Python编程以及抽象几何推理方面的能力。

解决学术问题

TurtleBench 解决了当前大型多模态模型在理解和生成几何图案代码方面的常见学术问题。通过提供一个系统化的基准，TurtleBench 揭示了这些模型在直观视觉几何理解上的显著不足，特别是在与人类表现相比时。这不仅为未来的研究提供了方向，还强调了在多模态模型中整合视觉理解和代码生成能力的重要性。

衍生相关工作

TurtleBench 的引入激发了一系列相关研究，特别是在多模态模型和视觉编程领域。例如，一些研究已经开始探索如何通过微调技术提高模型在TurtleBench上的表现，以及如何利用更先进的视觉处理架构来增强模型的视觉推理能力。此外，TurtleBench 还促进了关于模型在处理抽象几何形状和自然语言描述之间关系的深入研究，推动了多模态推理和概率程序归纳等领域的进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集