five

Tangram|几何图形数据集|数学推理数据集

收藏
arXiv2024-08-25 更新2024-08-28 收录
几何图形
数学推理
下载链接:
http://arxiv.org/abs/2408.13854v1
下载链接
链接失效反馈
资源简介:
Tangram数据集由华南师范大学等机构创建,包含1,080个从小学和中学考试、竞赛及教科书中收集的几何图形,涵盖从简单到复杂的几何形状。每个图形关联四个问题,总计4,320个视觉问答对。数据集通过严格的筛选和标注过程创建,旨在评估大型多模态模型在几何元素识别方面的能力。Tangram的应用领域主要集中在几何图形的理解和数学推理,旨在解决现有模型在几何问题解决上的不足。
提供机构:
华南师范大学
创建时间:
2024-08-25
AI搜集汇总
数据集介绍
main_image_url
构建方式
Tangram数据集的构建方式采用了从小学和中学的考试、竞赛和教科书中收集的1080个不同的几何图形。每个图形都与四个问题相关联,形成了总共4320个视觉-问题-答案对。这些图形涵盖了从简单的基本几何形状到复杂的组合。为了确保数据的质量和公平性,对图形进行了严格的筛选,并要求每个图形都能清楚地计算几何元素,如圆和三角形。为了提高标注的准确性,每个图形都由三名独立的数学专业硕士生进行标注,并在标注结果不一致时由经验丰富的资深标注员进行重新标注。
特点
Tangram数据集的特点在于其多样化的几何元素,包括平面和立体几何图形,涵盖了点、线、圆和三角形等常见几何元素。数据集的所有问题都是新的视觉问答对,有效地防止了数据泄露,保证了测试的公平性。此外,每个图形都根据其问题的复杂性进行了分类,分为易、中、难三个级别,为评估大型多模态模型识别图形元素的能力提供了指导。
使用方法
Tangram数据集的使用方法是通过让模型对图形中的字母、三角形、圆和线段进行计数,以评估模型对几何元素的认识能力。为了公平地比较不同模型在Tangram上的表现,采用了准确率作为评估指标。通过对模型的响应进行答案提取,并与数据集中的标准答案进行比较,计算出模型的准确率。实验结果表明,即使是看似简单的计数任务,当前的大型多模态模型也面临着显著的挑战,与人类的表现相比存在较大的差距,这表明了当前多模态人工智能系统在处理基本感知任务方面的局限性,并为下一代专家级多模态基础模型的开发提供了新的方向。
背景与挑战
背景概述
Tangram数据集是一个针对大型多模态模型(LMMs)在几何元素识别方面的性能评估的新基准。该数据集由来自中小学考试、竞赛和教科书的1080个多样化的几何图形组成,涵盖了从简单的几何形状到复杂的组合。每个图形都与四个问题相关联,总共产生了4320个视觉-问题-答案对。Tangram数据集由来自华南师范大学和安徽农业大学的Jiamin Tang、Chao Zhang、Xudong Zhu和Mengchi Liu等人创建,旨在评估LMMs在几何元素识别方面的能力。该数据集的引入填补了LMMs在识别几何元素方面的研究空白,并对相关领域产生了重要影响。
当前挑战
Tangram数据集面临的挑战包括:1) 领域问题的挑战:Tangram数据集要求模型对几何图形中的元素进行计数,这是一个看似简单但实际充满挑战的任务。实验结果表明,即使是最先进的模型,在Tangram数据集上的准确率也只有56.8%,与人类表现相比存在显著差距。2) 构建过程中的挑战:Tangram数据集的构建需要收集、筛选和标注大量的几何图形,这是一个耗时且需要专业知识的过程。此外,为了公平地评估不同模型的性能,Tangram数据集还采用了独特的评价方法,这也是一个挑战。
常用场景
经典使用场景
Tangram数据集是一个用于评估大型多模态模型在几何元素识别方面的性能的基准。该数据集包含1080个多样化的几何图形,每个图形都与四个问题相关联,总共形成4320个视觉-问答对。这些图形涵盖了从简单的基本几何形状到复杂的组合。Tangram的目的是要求模型执行一个“简单但有趣”的计数任务,即识别和计算图形中的字母、三角形、圆形和线段的数量。
解决学术问题
Tangram数据集解决了大型多模态模型在几何元素识别方面的性能评估问题。现有的基准测试主要关注更高层次的认识和推理,而Tangram则专注于对几何元素的理解。通过要求模型执行简单的计数任务,Tangram揭示了当前多模态人工智能系统在处理基本感知任务方面的局限性。Tangram数据集的提出和评估结果表明,即使是看似简单的任务,这些模型仍然面临着巨大的挑战,这为下一代专家级多模态基础模型的发展提供了新的研究方向。
衍生相关工作
Tangram数据集的提出和评估结果表明,当前多模态人工智能系统在处理基本感知任务方面仍然存在局限性。为了解决这个问题,研究人员可能会探索新的模型架构和训练方法,以提高模型在几何元素识别方面的性能。此外,Tangram数据集也可能激发其他领域的研究,如计算机视觉和自然语言处理,以提高模型在处理视觉和文本信息方面的能力。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

VEDAI

用于训练YOLO模型的VEDAI数据集,包含图像和标签,用于目标检测和跟踪。

github 收录