GeoThoughts数据集
收藏arXiv2025-10-24 更新2025-10-29 收录
下载链接:
https://github.com/xinlingdedeng/GeoThought
下载链接
链接失效反馈官方服务:
资源简介:
GeoThoughts数据集是一个包含两个子集的全面几何推理语料库:Geo-Thought-6K包含6,243个样本,其增强版本Geo-Thought-Augmented-10K包含10,834个样本。每个条目都包括视觉描述、逐步解决方案、明确的推理链、反思步骤和最终答案。该数据集用于训练GeoThought-MLLM,这是一个能够在解决问题时生成详细思维过程的数学推理多模态模型。该模型在几何任务中的表现优于现有的基准,证明了使用我们的Chain-of-Thought数据集训练可以改善几何推理能力。
The GeoThoughts dataset is a comprehensive geometric reasoning corpus consisting of two subsets: Geo-Thought-6K contains 6,243 samples, while its enhanced version Geo-Thought-Augmented-10K includes 10,834 samples. Each entry includes a visual description, step-by-step solution, explicit reasoning chain, reflective steps, and the final answer. This dataset is used to train GeoThought-MLLM, a mathematical reasoning multimodal model capable of generating detailed thought processes during problem-solving. This model outperforms existing benchmarks on geometric tasks, demonstrating that training with our Chain-of-Thought dataset can enhance geometric reasoning capabilities.
提供机构:
百度公司,中国科学院信息工程研究所,英特尔实验室
创建时间:
2025-10-24
搜集汇总
数据集介绍

构建方式
在几何推理这一人工智能领域的核心挑战中,GeoThoughts数据集通过创新的数据生成流程构建而成。该流程首先以GEOQA R1V Train 8K数据集中的问题与图像作为输入,通过教师模型Doubao-1.5-thinking-vision-pro生成包含完整推理链的思考过程与答案。随后采用拒绝采样策略,筛选模型答案与真实答案一致的样本,最终形成包含6,243个高质量样本的Geo-Thought-6K数据集。为进一步扩展数据规模,通过精心设计的提示工程对每个原始实例生成五个新问题,并对每个生成问题进行八次独立推理,仅保留答案一致率达100%的高置信度样本,最终构建出包含10,834个样本的增强版本Geo-Thought-Augmented-10K。
特点
该数据集在几何推理领域展现出显著特征优势。每个样本不仅包含视觉描述与最终答案,更具备详尽的逐步解决方案、显式推理链条及反思步骤,平均推理链长度达到1,218至1,299词。数据覆盖角度计算、长度测量、面积计算、相似性评估及坐标几何等多种几何问题类型,其中角度问题占比63.5%,充分体现几何推理的基础特性。数据集特别强调推理过程的完整性与验证机制,包含频繁的自我反思与错误检查步骤,使模型能够系统分析几何关系、形成假设并执行递归分解,有效模拟人类解决几何问题的认知模式。
使用方法
在几何推理模型训练实践中,该数据集采用监督微调方法进行应用。数据格式遵循DeepSeek-R1建立的模式,将推理过程封装于<think>标签内,最终响应置于<answer>标签中。训练过程中采用负对数似然目标函数,输入图像统一调整为336×336像素分辨率,输入序列截断至4,096个标记,目标序列截断至1,024个标记。通过三轮训练周期,使用AdamW优化器与线性预热学习率策略,有效全局批次大小为256个序列。推理阶段采用贪婪解码策略,最大生成长度为2,048个标记,确保模型能够生成结构化推理过程的同时保持高效的几何理解能力。
背景与挑战
背景概述
几何推理作为人工智能领域最具挑战性的认知任务之一,要求模型同时具备精确的视觉感知能力与复杂的逻辑推理能力。GeoThoughts数据集由百度、中国科学院信息工程研究所与英特尔实验室的研究团队于2025年联合创建,旨在解决多模态大语言模型在几何问题求解中的性能瓶颈。该数据集包含Geo-Thought-6K及其增强版本Geo-Thought-Augmented-10K两个子集,通过创新的数据生成流程构建,每个样本均包含视觉描述、分步解决方案、显式推理链与反思步骤。该数据集的建立显著提升了模型在几何推理任务中的表现,为数学教育、工程设计与科学研究等领域的多模态推理技术发展提供了重要支撑。
当前挑战
在几何问题求解领域,模型需克服空间关系误判与数学概念理解偏差等核心挑战,具体表现为对几何图形中连续内角与对应角的错误识别。数据集构建过程中面临双重挑战:其一是现有几何数据集普遍缺乏大规模、多样化且包含显式推理链的训练样本,制约了模型对复杂几何关系的理解能力;其二是数据质量控制难题,需要通过多轮采样与一致性验证机制确保生成数据的准确性与可靠性,避免随机噪声对模型推理能力的负面影响。
常用场景
经典使用场景
在几何推理研究领域,GeoThoughts数据集被广泛应用于训练和评估多模态大语言模型的几何问题解决能力。该数据集通过包含视觉描述、逐步解答和显式推理链的完整标注,为模型提供了学习复杂几何推理过程的理想平台。研究者在几何问题求解任务中利用该数据集训练模型生成详细的思维链条,显著提升了模型在角度计算、长度测量、面积计算等几何任务中的表现。
解决学术问题
GeoThoughts数据集有效解决了多模态几何推理中的关键学术难题。传统几何数据集缺乏详细的推理过程标注,导致模型难以学习人类的问题解决策略。该数据集通过提供完整的思维链条和反思步骤,使模型能够系统掌握几何定理的应用、空间关系的判断以及多步骤逻辑推导。实验表明,基于该数据集训练的模型在GeoQA和Geometry3K基准测试中实现了显著性能提升,准确率最高提升达25%,填补了几何推理领域高质量训练数据的空白。
衍生相关工作
GeoThoughts数据集的发布推动了几何推理领域的系列创新研究。基于该数据集训练的GeoThought-MLLM模型在开源多模态模型中达到了领先水平。该数据集的方法论启发了后续研究对思维链生成质量的重视,促使研究者开发更精细的数据过滤和增强技术。相关工作还探索了如何将视觉感知与逻辑推理更紧密结合,以解决模型在空间关系判断中的常见错误,推动了几何推理技术的持续进步。
以上内容由遇见数据集搜集并总结生成



