five

Geoperception

收藏
github2024-12-13 更新2024-12-14 收录
下载链接:
https://github.com/euclid-multimodal/Euclid
下载链接
链接失效反馈
官方服务:
资源简介:
Geoperception是一个专注于多模态大型语言模型(MLLMs)中细粒度低级几何感知的基准测试。它包括一个综合的研究,使用开发的合成数据引擎来探索多模态LLM设计空间,并发现数据课程是有帮助的。

Geoperception is a benchmark focusing on fine-grained low-level geometric perception in multimodal large language models (MLLMs). It includes a comprehensive study that leverages a custom-developed synthetic data engine to explore the design space of multimodal LLMs, and reveals that data curricula are beneficial.
创建时间:
2024-11-27
原始信息汇总

Euclid 数据集概述

数据集简介

Euclid 数据集专注于多模态大语言模型(MLLMs)的低级几何理解,包含以下主要内容:

  • Geoperception Benchmark:首个专注于MLLMs中细粒度低级几何感知的基准。
  • 合成数据引擎 + 实证研究:通过开发的合成数据引擎对多模态LLM设计空间进行全面研究。
  • Euclid 模型:两个参数量小于3B的模型在Geoperception基准上超越了最佳的专有多模态LLMs。

数据集内容

Geoperception

  • 数据集下载: python from datasets import load_dataset loaded_dataset = load_dataset("EuclidAI/Geoperception")[train]

  • 模型评估: python python euclid/eval/run_euclid_geo.py --model_path $MODEL_PATH --device cuda

几何图像生成引擎

  • 数据生成: python from image_engine.training_data_engine import * tasks = [PointLiesOnLine, PointLiesOnCircle, AngleClassification, LineComparison, Parallel, Perpendicular, Equal] stages = [1, 2, 3] data_engine = Euclid_DataEngine(tasks=tasks, stages=stages, attenuation_rate=0, image_path=./playground/data/euclid/image, tol=0.3) datas = data_engine.generate_datas(10500) with open(./playground/data/euclid/data.json, w) as f: json.dump(datas, f, indent=4)

模型训练与评估

实证研究与Euclid训练脚本

  • 实证研究脚本: bash bash scripts/empirical_study/run.sh

  • Euclid训练脚本: bash bash scripts/euclid_training/run.sh

Euclid 模型

  • 模型下载与评估: bash pip install -U "huggingface_hub[cli]" huggingface-cli download --cache-dir $MODEL_PATH EuclidAI/Euclid-convnext-large python euclid/eval/run_euclid_geo.py --model_path $MODEL_PATH --device cuda

引用

bibtex @article{zhang2024euclid, title={Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions}, author={Zhang, Jiarui and Liu, Ollie and Yu, Tianyu and Hu, Jinyi and Neiswanger, Willie}, journal={arXiv preprint arXiv:2412.08737}, year={2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
Geoperception数据集的构建基于一个综合的几何图像生成引擎,该引擎能够生成大量的高保真几何图形实例。通过精心设计的几何形状生成模块,结合问题生成引擎,数据集不仅包含了图像数据,还生成了与之对应的几何问题及其答案。这一过程确保了数据集在低层次几何感知任务中的细粒度覆盖,为多模态大语言模型(MLLMs)的训练提供了丰富的素材。
使用方法
使用Geoperception数据集时,用户可以通过Hugging Face的datasets库直接加载数据集,并结合Euclid模型进行评估。用户还可以通过提供的脚本生成自定义的几何图像和问题,进一步扩展数据集的应用场景。评估模型时,需遵循特定的指令格式,并通过解析模型的预测结果来计算准确性。
背景与挑战
背景概述
Geoperception数据集由Jiarui Zhang、Ollie Liu、Tianyu Yu、Jinyi Hu和Willie Neiswanger等研究人员于2024年创建,旨在推动多模态大语言模型(MLLMs)在低层次几何感知任务中的表现。该数据集的核心研究问题聚焦于如何通过合成高保真视觉描述来增强MLLMs的几何理解能力。Geoperception不仅提供了一个专门针对细粒度低层次几何感知的基准测试,还通过其开发的合成数据引擎进行了一系列多模态LLM设计空间的综合研究。该数据集的发布对多模态学习领域具有重要影响,尤其是为低层次几何感知任务提供了新的研究方向。
当前挑战
Geoperception数据集面临的挑战主要集中在两个方面。首先,构建过程中需要生成大量高保真的几何图像和相应的描述,这对数据生成引擎的设计和效率提出了高要求。其次,多模态大语言模型在处理低层次几何感知任务时,面临着模型规模、视觉编码器选择、视觉编码器微调以及课程学习策略等多方面的挑战。尽管实验表明,课程学习策略能够有效提升模型收敛效率,但如何在复杂几何任务中进一步优化模型性能仍是一个亟待解决的问题。此外,如何将该数据集的应用扩展到更广泛的低层次视觉理解任务中,也是一个重要的研究方向。
常用场景
经典使用场景
Geoperception数据集的经典使用场景主要集中在多模态大语言模型(MLLMs)的低级几何感知任务上。该数据集通过其几何感知基准,专注于细粒度的低级几何感知,为模型提供了丰富的几何形状和相关问题的合成数据。研究者可以利用这些数据训练和评估模型在几何感知任务中的表现,特别是在点线关系、角度分类、平行与垂直判断等任务上的能力。
解决学术问题
Geoperception数据集解决了多模态大语言模型在低级几何感知任务中的关键学术问题。通过提供细粒度的几何感知数据,该数据集帮助研究者探索和优化模型在几何形状识别、空间关系理解等方面的性能。其合成数据引擎和基准测试为模型设计提供了新的视角,特别是在数据课程学习和视觉编码器选择方面,推动了多模态模型在几何感知任务中的进展。
实际应用
Geoperception数据集的实际应用场景广泛,特别是在需要高精度低级几何感知的领域。例如,在自动驾驶中,车辆需要准确识别道路上的几何形状和空间关系;在机器人导航中,机器人需要理解环境中的几何结构以进行路径规划。此外,该数据集还可用于教育领域的几何问题自动生成和评估,帮助学生通过交互式学习提升几何理解能力。
数据集最近研究
最新研究方向
在多模态大语言模型(MLLMs)领域,Geoperception数据集的最新研究方向聚焦于低层次几何感知能力的提升。该数据集通过引入合成高保真视觉描述,推动了多模态模型在几何理解上的前沿探索。研究者们开发了Geoperception基准,专注于细粒度的低层次几何感知任务,并通过合成数据引擎进行全面的多模态LLM设计空间研究。此外,Euclid模型展示了在低层次视觉感知任务中的显著优势,尤其是在几何形状识别和分析方面,为未来在特定下游任务中的应用提供了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作