five

GeoTrust

收藏
arXiv2025-04-22 更新2025-04-24 收录
下载链接:
https://github.com/Alpha-Innovator/TrustGeoGen
下载链接
链接失效反馈
官方服务:
资源简介:
GeoTrust数据集是由TrustGeoGen引擎生成的,包含了20万个样本,每个样本都是通过形式验证确保推理路径的原则性基准。该数据集的创建不依赖于现有的数据源,确保了评估的无偏倚性和可扩展性,旨在为多模态几何问题解决提供高质量的数据集。

The GeoTrust dataset is generated by the TrustGeoGen engine, containing 200,000 samples. Each sample is a principled benchmark whose reasoning path is guaranteed via formal verification. Developed without relying on any existing data sources, this dataset ensures the unbiasedness and scalability of evaluations, and aims to provide a high-quality benchmark dataset for multimodal geometric problem-solving.
提供机构:
复旦大学, 上海人工智能实验室, 上海交通大学
创建时间:
2025-04-22
搜集汇总
数据集介绍
main_image_url
构建方式
GeoTrust数据集的构建采用了TrustGeoGen引擎,该引擎通过多模态对齐生成几何图形、文本描述和逐步解决方案,并利用形式化验证确保推理路径的合规性。具体而言,引擎包含四个关键组件:Constructor生成几何前提和图表,Reasoner扩展几何有效的推理图,Sampler通过GeoExplore算法提取高质量推理路径,Translator将形式化规范转化为自然语言。此外,通过自举机制递归生成复杂前提,确保数据复杂性和逻辑一致性。
特点
GeoTrust数据集的特点在于其多模态完整性、可扩展性和可验证性。数据集包含20万个样本,每个样本均同步标注了双形式(形式化与非形式化)的标题、问题、解决方案和图表。通过形式化验证,所有解决方案步骤均经过严格验证,确保逻辑一致性。此外,数据集通过自举机制和GeoExplore算法生成多解问题和自反回溯数据,增强了数据的多样性和复杂性。
使用方法
GeoTrust数据集的使用方法包括训练和评估多模态大语言模型(MLLMs)的几何问题解决能力。用户可通过提供的训练集(GeoTrust-train)进行监督微调(SFT),并通过测试集(GeoTrust-test)评估模型在不同难度层级上的表现。数据集支持自动形式化验证,用户还可利用其多解和自反回溯数据探索模型的推理多样性。此外,数据集可推广至分布外(OOD)测试集(如GeoQA),验证模型的泛化能力。
背景与挑战
背景概述
GeoTrust数据集由上海人工智能实验室和上海交通大学的研究团队于2025年提出,旨在解决多模态几何问题求解(GPS)领域的关键挑战。该数据集通过TrustGeoGen数据引擎构建,包含20万条经过形式化验证的几何问题样本,涵盖图文描述、分步解答和自反式回溯轨迹。作为首个具备模态完整性和逻辑可验证性的几何推理基准,GeoTrust填补了传统合成数据集中存在的噪声和自我矛盾问题,为几何推理模型的训练与评估提供了可靠基础。其创新性的自举机制和GeoExplore算法系列,通过递归状态生成实现了问题复杂度的系统化提升,显著推动了数学推理领域的研究进展。
当前挑战
GeoTrust数据集面临的核心挑战体现在两个维度:在领域问题层面,现有几何推理模型在复杂多步推理(如超过50步的证明链)中表现欠佳,测试集上最优模型准确率仅为49.17%,凸显几何逻辑连贯性验证的困难;在构建过程层面,需克服模态对齐的精确性(确保图文描述与几何约束严格一致)、形式化验证的可扩展性(处理超长推理路径的自动证明),以及自举机制中的逻辑一致性维护(递归生成时避免前提冲突)三大技术难题。此外,数据引擎需平衡生成效率与质量,避免产生无意义的几何场景,这对采样算法的设计提出了极高要求。
常用场景
经典使用场景
GeoTrust数据集在几何问题求解(GPS)领域具有广泛的应用价值,尤其在多模态信息整合和形式化验证方面表现突出。该数据集通过结合几何图形、文本描述和逐步解答,为研究者提供了一个全面且可靠的基准测试平台。在几何推理任务中,GeoTrust能够有效支持模型的训练和评估,尤其是在需要高精度逻辑推理的场景中,如国际数学奥林匹克竞赛(IMO)级别的几何问题求解。
解决学术问题
GeoTrust数据集解决了当前几何问题求解领域中的多个关键学术问题。首先,它通过形式化验证确保了推理路径的逻辑一致性,避免了传统数据集中常见的噪声和自相矛盾问题。其次,数据集的多模态对齐特性弥补了现有数据在视觉-文本模态融合方面的不足。此外,GeoTrust通过自举机制和GeoExplore算法,实现了问题复杂度的动态提升和多解路径的生成,为几何推理模型的鲁棒性和泛化能力研究提供了有力支持。
衍生相关工作
GeoTrust数据集的推出催生了一系列相关研究工作。例如,基于该数据集的TrustGeoGen引擎被用于开发更高效的几何问题生成和验证工具。此外,GeoTrust为多模态几何推理模型(如G-LLAVA和MathLLaVA)的训练和评估提供了重要支持。数据集的严格验证机制也启发了后续研究者在其他数学推理任务中引入形式化验证方法,进一步推动了可信人工智能系统的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作