five

Tangram

收藏
arXiv2024-08-25 更新2024-08-28 收录
下载链接:
http://arxiv.org/abs/2408.13854v1
下载链接
链接失效反馈
官方服务:
资源简介:
Tangram数据集由华南师范大学等机构创建,包含1,080个从小学和中学考试、竞赛及教科书中收集的几何图形,涵盖从简单到复杂的几何形状。每个图形关联四个问题,总计4,320个视觉问答对。数据集通过严格的筛选和标注过程创建,旨在评估大型多模态模型在几何元素识别方面的能力。Tangram的应用领域主要集中在几何图形的理解和数学推理,旨在解决现有模型在几何问题解决上的不足。

The Tangram dataset was created by South China Normal University and other institutions. It contains 1,080 geometric figures collected from primary and secondary school exams, competitions and textbooks, covering geometric shapes ranging from simple to complex. Each figure is associated with four questions, totaling 4,320 visual question-answer pairs. Developed through a strict screening and annotation process, the dataset aims to evaluate the capability of large multimodal models in geometric element recognition. The application scenarios of Tangram mainly focus on geometric figure understanding and mathematical reasoning, intending to address the shortcomings of existing models in geometric problem-solving.
提供机构:
华南师范大学
创建时间:
2024-08-25
搜集汇总
数据集介绍
main_image_url
构建方式
Tangram数据集的构建方式采用了从小学和中学的考试、竞赛和教科书中收集的1080个不同的几何图形。每个图形都与四个问题相关联,形成了总共4320个视觉-问题-答案对。这些图形涵盖了从简单的基本几何形状到复杂的组合。为了确保数据的质量和公平性,对图形进行了严格的筛选,并要求每个图形都能清楚地计算几何元素,如圆和三角形。为了提高标注的准确性,每个图形都由三名独立的数学专业硕士生进行标注,并在标注结果不一致时由经验丰富的资深标注员进行重新标注。
特点
Tangram数据集的特点在于其多样化的几何元素,包括平面和立体几何图形,涵盖了点、线、圆和三角形等常见几何元素。数据集的所有问题都是新的视觉问答对,有效地防止了数据泄露,保证了测试的公平性。此外,每个图形都根据其问题的复杂性进行了分类,分为易、中、难三个级别,为评估大型多模态模型识别图形元素的能力提供了指导。
使用方法
Tangram数据集的使用方法是通过让模型对图形中的字母、三角形、圆和线段进行计数,以评估模型对几何元素的认识能力。为了公平地比较不同模型在Tangram上的表现,采用了准确率作为评估指标。通过对模型的响应进行答案提取,并与数据集中的标准答案进行比较,计算出模型的准确率。实验结果表明,即使是看似简单的计数任务,当前的大型多模态模型也面临着显著的挑战,与人类的表现相比存在较大的差距,这表明了当前多模态人工智能系统在处理基本感知任务方面的局限性,并为下一代专家级多模态基础模型的开发提供了新的方向。
背景与挑战
背景概述
Tangram数据集是一个针对大型多模态模型(LMMs)在几何元素识别方面的性能评估的新基准。该数据集由来自中小学考试、竞赛和教科书的1080个多样化的几何图形组成,涵盖了从简单的几何形状到复杂的组合。每个图形都与四个问题相关联,总共产生了4320个视觉-问题-答案对。Tangram数据集由来自华南师范大学和安徽农业大学的Jiamin Tang、Chao Zhang、Xudong Zhu和Mengchi Liu等人创建,旨在评估LMMs在几何元素识别方面的能力。该数据集的引入填补了LMMs在识别几何元素方面的研究空白,并对相关领域产生了重要影响。
当前挑战
Tangram数据集面临的挑战包括:1) 领域问题的挑战:Tangram数据集要求模型对几何图形中的元素进行计数,这是一个看似简单但实际充满挑战的任务。实验结果表明,即使是最先进的模型,在Tangram数据集上的准确率也只有56.8%,与人类表现相比存在显著差距。2) 构建过程中的挑战:Tangram数据集的构建需要收集、筛选和标注大量的几何图形,这是一个耗时且需要专业知识的过程。此外,为了公平地评估不同模型的性能,Tangram数据集还采用了独特的评价方法,这也是一个挑战。
常用场景
经典使用场景
Tangram数据集是一个用于评估大型多模态模型在几何元素识别方面的性能的基准。该数据集包含1080个多样化的几何图形,每个图形都与四个问题相关联,总共形成4320个视觉-问答对。这些图形涵盖了从简单的基本几何形状到复杂的组合。Tangram的目的是要求模型执行一个“简单但有趣”的计数任务,即识别和计算图形中的字母、三角形、圆形和线段的数量。
解决学术问题
Tangram数据集解决了大型多模态模型在几何元素识别方面的性能评估问题。现有的基准测试主要关注更高层次的认识和推理,而Tangram则专注于对几何元素的理解。通过要求模型执行简单的计数任务,Tangram揭示了当前多模态人工智能系统在处理基本感知任务方面的局限性。Tangram数据集的提出和评估结果表明,即使是看似简单的任务,这些模型仍然面临着巨大的挑战,这为下一代专家级多模态基础模型的发展提供了新的研究方向。
衍生相关工作
Tangram数据集的提出和评估结果表明,当前多模态人工智能系统在处理基本感知任务方面仍然存在局限性。为了解决这个问题,研究人员可能会探索新的模型架构和训练方法,以提高模型在几何元素识别方面的性能。此外,Tangram数据集也可能激发其他领域的研究,如计算机视觉和自然语言处理,以提高模型在处理视觉和文本信息方面的能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作