Geoperception
收藏Hugging Face2024-12-13 更新2024-12-14 收录
下载链接:
https://huggingface.co/datasets/euclid-multimodal/Geoperception
下载链接
链接失效反馈官方服务:
资源简介:
Geoperception数据集是一个专注于评估模型在2D几何中低级视觉感知能力的基准。该数据集源自Geometry-3K语料库,该语料库提供了几何图形的精确逻辑形式,这些几何图形编译自流行的高中教科书。数据集包含多个字段,包括id、question、answer、predicate和image。predicate字段定义了不同的问题类型,如PointLiesOnLine、LineComparison等。数据集的结构包括训练集,共有11657个样本。数据集的用途是评估多模态大语言模型在2D几何领域的低级视觉感知能力。
The Geoperception dataset is a benchmark focused on evaluating models' low-level visual perception abilities in the domain of 2D geometry. It is derived from the Geometry-3K corpus, which provides precise logical formalizations of geometric graphics compiled from popular high school textbooks. The dataset comprises multiple fields, including id, question, answer, predicate, and image. The predicate field defines various question types, such as PointLiesOnLine, LineComparison, and so on. Its structure includes a training set with a total of 11,657 samples. The primary application of this dataset is to evaluate the low-level visual perception capabilities of multimodal large language models in the 2D geometry domain.
创建时间:
2024-12-03
原始信息汇总
数据集概述
数据集描述
名称: Geoperception
语言: 英语
许可证: Apache 2.0
规模: 10K < n < 100K
任务类别:
- 问答
- 视觉问答
标签:
- 多模态问答
- 数学问答
- 图形问答
- 几何问答
- 数学应用题
- 视觉问答
- 几何推理
- 数值常识
- 科学推理
- 逻辑推理
- 几何图表
- 合成场景
- 科学图表
- 函数图
- 抽象场景
- 数学
数据集结构
特征
- id: 数据实例的标识符 (string)
- question: 问题 (string)
- answer: 答案 (string)
- predicate: 问题类型 (string),包括:
- PointLiesOnLine
- LineComparison
- PointLiesOnCircle
- AngleClassification
- Parallel
- Perpendicular
- Equal
- image: 图像 (image)
数据分割
- train: 训练集,包含11657个样本,大小为294203058.193字节
数据大小
- 下载大小: 93419701字节
- 数据集大小: 294203058.193字节
数据集来源
- 仓库: https://github.com/euclid-multimodal/Euclid
- 论文: https://arxiv.org/abs/2412.08737
- 演示: https://euclid-multimodal.github.io/
用途
用于评估多模态大语言模型在2D几何领域中的低级视觉感知能力。
评估结果
| 模型 | POL | POC | ALC | LHC | PEP | PRA | EQL | Overall |
|---|---|---|---|---|---|---|---|---|
| Random Baseline | 1.35 | 2.63 | 59.92 | 51.36 | 0.23 | 0.00 | 0.02 | 16.50 |
| Open Source | ||||||||
| Molmo-7B-D | 11.96 | 35.73 | 56.77 | 16.79 | 1.06 | 0.00 | 0.81 | 17.59 |
| Llama-3.2-11B | 16.22 | 37.12 | 59.46 | 52.08 | 8.38 | 22.41 | 49.86 | 35.08 |
| Qwen2-VL-7B | 21.89 | 41.60 | 46.60 | 63.27 | 26.41 | 30.19 | 54.37 | 40.62 |
| Cambrian-1-8B | 15.14 | 28.68 | 58.05 | 61.48 | 22.96 | 30.74 | 31.04 | 35.44 |
| Pixtral-12B | 24.63 | 53.21 | 47.33 | 51.43 | 21.96 | 36.64 | 58.41 | 41.95 |
| Closed Source | ||||||||
| GPT-4o-mini | 9.80 | 61.19 | 48.84 | 69.51 | 9.80 | 4.25 | 44.74 | 35.45 |
| GPT-4o | 16.43 | 71.49 | 55.63 | 74.39 | 24.80 | 60.30 | 44.69 | 49.68 |
| Claude 3.5 Sonnet | 25.44 | 68.34 | 42.95 | 70.73 | 21.41 | 63.92 | 66.34 | 51.30 |
| Gemini-1.5-Flash | 29.30 | 67.75 | 49.89 | 76.69 | 29.98 | 63.44 | 66.28 | 54.76 |
| Gemini-1.5-Pro | 24.42 | 69.80 | 57.96 | 79.05 | 38.81 | 76.65 | 52.15 | 56.98 |
引用
bibtex @article{zhang2024euclid, title={Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions}, author={Zhang, Jiarui and Liu, Ollie and Yu, Tianyu and Hu, Jinyi and Neiswanger, Willie}, journal={arXiv preprint arXiv:2412.08737}, year={2024} }
搜集汇总
数据集介绍

构建方式
Geoperception数据集的构建基于Geometry-3K语料库,该语料库从流行的高中几何教材中精心挑选并编译了精确的逻辑形式的几何图形描述。通过这种方式,数据集不仅提供了丰富的几何问题,还确保了每个问题的逻辑结构和视觉描述的高保真度,从而为评估模型的低级视觉感知能力提供了坚实的基础。
特点
Geoperception数据集的核心特点在于其专注于低级视觉感知能力的评估,特别是在二维几何领域。数据集包含了多种几何问题类型,如点在线、线比较、点在圆上等,每种问题类型都配有相应的图像和逻辑形式描述,确保了问题的多样性和复杂性。此外,数据集的多模态特性使其适用于视觉问答和几何推理等多种任务。
使用方法
Geoperception数据集主要用于评估多模态大语言模型(LLMs)在低级视觉感知能力方面的表现。用户可以通过加载数据集中的训练集进行模型训练,并利用测试集进行性能评估。数据集的结构清晰,包含问题、答案、图像和逻辑形式描述等字段,便于模型进行多模态输入的处理和推理。通过对比不同模型的表现,研究者可以深入了解模型在几何推理任务中的优势与不足。
背景与挑战
背景概述
Geoperception数据集是由Zhang等人于2024年创建,旨在评估多模态大语言模型(LLMs)在2D几何视觉感知能力上的表现。该数据集源自Geometry-3K语料库,该语料库从高中数学教材中提取了精确的几何图形的逻辑形式。Geoperception的推出填补了低层次几何视觉感知评估的空白,为多模态模型在几何领域的应用提供了重要的基准。其核心研究问题集中在模型对几何图形的视觉理解与推理能力,对推动多模态学习与几何推理技术的发展具有重要意义。
当前挑战
Geoperception数据集面临的挑战主要集中在两个方面。首先,几何图形的视觉感知与推理涉及复杂的逻辑结构,如何准确解析和理解这些结构是模型面临的主要难题。其次,数据集的构建过程中,从高中教材中提取精确的逻辑形式并生成高质量的合成图像,确保数据的准确性和多样性,是一项技术上的挑战。此外,评估多模态模型在几何领域的性能时,如何设计合理的评估指标以反映模型的实际能力也是一个重要的挑战。
常用场景
经典使用场景
Geoperception数据集的经典使用场景主要集中在评估多模态大语言模型(LLMs)在二维几何领域的低级视觉感知能力。通过提供几何图形的图像和相关问题,模型需要回答关于点、线、角等几何元素的位置、关系和属性等问题。这种场景不仅测试了模型的视觉理解能力,还考验了其在几何推理和逻辑推理方面的表现。
实际应用
在实际应用中,Geoperception数据集可以用于开发和优化教育领域的智能辅导系统,特别是针对几何学习的部分。通过结合视觉和文本信息,系统能够更准确地理解和解答学生的几何问题,提供个性化的学习建议和反馈。此外,该数据集还可应用于机器人视觉和自动驾驶等领域,帮助系统更好地理解和处理复杂的几何环境。
衍生相关工作
基于Geoperception数据集,许多相关工作得以展开,特别是在多模态学习和几何推理领域。例如,研究者们开发了新的模型架构,以提高在几何图形理解和推理任务中的表现。此外,该数据集还激发了对合成高保真视觉描述的研究,探索如何通过合成数据进一步提升模型的视觉感知能力。这些工作不仅丰富了多模态学习的理论基础,还为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成



