five

CombiGraph-Vis

收藏
arXiv2025-10-31 更新2025-11-04 收录
下载链接:
https://github.com/combigraphviz2025/combigraph-viz
下载链接
链接失效反馈
官方服务:
资源简介:
CombiGraph-Vis是一个包含1135个离散数学推理问题的数据集,涵盖了13个领域和三种格式(简答题、选择题、是/否题),其中约三分之一的问题包含图像。每个问题都附有经过验证的解决方案和技术标签,数据集通过代理工作流程在人工监督下进行整理和验证,以确保一致性和准确性。该数据集强调对图、网格和其他组合对象的推理,产生简短、可检查的答案。CombiGraph-Vis通过专注于离散数学、提供经过验证的解决方案和技术标签,以及支持对多模态推理的有针对性的分析,补充了先前的资源。
提供机构:
宾夕法尼亚州立大学、纽约城市大学、纽约大学、阿米尔卡比尔理工大学、Autodesk
创建时间:
2025-10-31
原始信息汇总

CombiGraph-Vis数据集概述

数据集基本信息

  • 名称:CombiGraph-Vis
  • 类型:多模态奥赛基准数据集
  • 领域:离散数学推理
  • 来源:伊朗国家信息学奥林匹克竞赛
  • 论文状态:Math-AI Workshop, NeurIPS 2025接受
  • 数据平台:HuggingFace上的combviz/inoi

数据规模与组成

  • 总问题数:1,135个
  • 训练集:908个问题
  • 测试集:227个问题

问题类型分布

类型 数量 占比 含图像问题
所有问题 1,135 100% 406 (36%)
简答题 884 78% 321
选择题 157 14% 49
是/否题 94 8% 36

领域覆盖

  • 覆盖领域数:13个离散数学领域
  • 技术标签:89个细粒度技术标签,按层次结构组织(主题→子主题→子子主题)

数据集特点

  • 多模态特性:约三分之一问题包含图像(图、网格、图表)
  • 答案验证:每个问题都有经过验证的解决方案
  • 技术标注:提供技术标签标注
  • 质量保证:通过人工监督的智能体工作流程进行整理和验证

评估结果摘要

  • 顶级模型性能:GPT-5、Gemini 2.5 Pro达到约75-78%准确率
  • 图像问题难度:比纯文本问题难14-20个百分点
  • 选择题表现:模型生成答案与某个选项匹配的概率为85-92%,但仅获得正确选项的概率为60-78%,存在14-45个百分点的差距

数据收集与整理

  • 来源验证:来自INOI第一轮竞赛(第5-34年)和精选的第二轮题目集
  • 图像处理:低分辨率或波斯语文本图像已重新绘制以提高清晰度
  • 整理流程:两阶段智能体工作流程(验证阶段→解决阶段)

评估协议

  • 解决方案生成:每个问题生成8个思维链解决方案
  • 答案格式:最终答案用oxed{}包装
  • 评估指标:avg@8、pass@8、maj@8、all-pass@8
  • 选择题评估:额外计算"Among-Choices"准确率以衡量干扰项敏感性
搜集汇总
数据集介绍
main_image_url
构建方式
CombiGraph-Vis数据集的构建基于伊朗国家信息学奥林匹克竞赛历年试题的系统化采集与转化。研究团队从官方PDF文档中提取第一轮与第二轮竞赛题目,通过自动化解析工具将波斯语内容转换为结构化文本,并采用智能体工作流进行多轮验证。该流程包含问题验证与自动纠错两大阶段:第一阶段通过三类专业批评家(格式清晰度、逻辑严谨性、答案匹配度)生成独立验证报告,第二阶段根据错误分类实施精准修复,最终在人工监督下确保数据的一致性与准确性。
特点
该数据集涵盖离散数学推理的13个核心领域,包含1135道具有短答案、多项选择和是非题三种形式的题目,其中35%的问题嵌入了对解题至关重要的图像信息。每道题目均配备经过验证的解答方案和技术标签,形成细粒度的三层次分类体系。其独特之处在于通过智能体工作流实现数据质量的全流程控制,同时提供包含图像依赖题、独立选择题等特殊子集,为评估模型在多模态环境下的推理能力与抗干扰性提供了精准测量基准。
使用方法
研究者可通过官方GitHub仓库获取完整数据集与评估代码,采用八样本思维链协议进行多轮推理验证。评估体系包含四个核心指标:平均准确率、任意通过率、多数通过率与全样本通过率,能有效区分模型在文本与图像模态下的性能差异。针对选择题可进一步分析独立答题准确率与选项匹配率的差异,揭示模型对干扰项的敏感程度。技术标签体系支持对89种具体推理技术的细粒度分析,为离散数学推理的能力诊断提供结构化框架。
背景与挑战
背景概述
CombiGraph-Vis作为2025年发布的离散数学推理基准,由宾夕法尼亚州立大学领衔的多机构研究团队构建,聚焦于组合数学与图论等13个核心领域。该数据集包含1135道源自伊朗信息学奥林匹克竞赛的题目,涵盖简答、多选与是非三种形式,其中35%的问题依赖图像信息进行求解,开创性地将视觉推理与离散数学深度结合。通过引入人机协同的智能校验流程,该数据集不仅提供了经过验证的解决方案和技术标签,更填补了现有数学推理基准在离散数学领域的评估空白,为多模态推理研究提供了重要的基础设施支撑。
当前挑战
该数据集面临的领域挑战主要体现为多模态离散数学推理的复杂性,要求模型同时处理图像中的图结构、网格布局等视觉信息与抽象数学概念。在构建过程中,研究团队需应对三大技术难题:原始波斯语竞赛材料的跨语言转换可能引发符号误译与语义偏差,PDF解析过程中数学公式的结构化重建易产生编码错误,以及竞赛题目特有的干扰项设计导致答案验证复杂度提升。此外,针对图像标注问题的评估显示现有模型存在14-16个百分点的性能落差,而多选择题中正确答案准确率与选项匹配率之间的系统性差异,进一步揭示了模型在抵抗精心设计的竞赛陷阱方面存在显著脆弱性。
常用场景
经典使用场景
在离散数学推理研究领域,CombiGraph-Vis作为多模态奥林匹克竞赛基准数据集,其经典应用场景聚焦于评估模型对图论、组合构造和逻辑谜题等领域的推理能力。该数据集通过包含35%图像标注问题,特别强调对图形、网格等视觉结构化信息的解析与推理,为研究者提供了检验模型在多模态环境下数学推理能力的标准化测试平台。其短答案、多项选择和是非题三种格式的混合设计,能够全面衡量模型从问题理解到最终答案生成的完整推理链条。
实际应用
在实际应用层面,CombiGraph-Vis为智能教育系统和竞赛培训平台提供了可靠的能力评估标准。教育科技公司可借助该数据集诊断学生在组合数学和图论等领域的知识盲区,个性化定制训练方案。其多模态特性特别适用于开发能够理解几何图示和逻辑图表的智能辅导系统,同时为自动化解题系统的研发提供了包含视觉推理要素的标准化测试集。在人才选拔场景中,该数据集的高难度奥林匹克级别问题可作为评估顶尖数学思维能力的有效工具。
衍生相关工作
基于CombiGraph-Vis衍生的经典研究集中在多模态数学推理的评估方法创新领域。其独特的图像标注问题切片催生了针对视觉数学理解的专项评估框架,而技术标签体系启发了细粒度能力诊断的新范式。数据集揭示的模型在陷阱选项下的系统性偏差现象,推动了对抗性样本构建和鲁棒性训练技术的研究浪潮。其验证工作流程中采用的智能体批判机制,更成为后续数据集质量保障研究的重要参考模板,影响了多个后续数学推理基准的构建方法论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作