five

C2-Evo

收藏
arXiv2025-07-22 更新2025-07-24 收录
下载链接:
https://github.com/chen-xw/C2-Evo
下载链接
链接失效反馈
官方服务:
资源简介:
C2-Evo是一个自动的、闭环的自我改进框架,它联合进化训练数据和模型能力。该数据集由SKETCHPAD生成的复杂几何图形和复杂问题合成组成,旨在提高模型在复杂场景下的推理能力。C2-Evo通过交叉模态数据进化循环和数据-模型进化循环,不断优化模型和训练数据,并在多个数学推理基准上取得了显著的性能提升。

C2-Evo is an automated, closed-loop self-improvement framework that jointly evolves training data and model capabilities. This dataset comprises complex geometric shapes and complex problem syntheses generated by SKETCHPAD, aiming to enhance the reasoning ability of models in complex scenarios. C2-Evo continuously optimizes both models and training data through cross-modal data evolution loops and data-model evolution loops, achieving significant performance improvements across multiple mathematical reasoning benchmarks.
提供机构:
中山大学, 香港理工大学, Mohamed bin Zayed University of Artificial Intelligence, 华为诺亚方舟实验室
创建时间:
2025-07-22
原始信息汇总

C2-Evo 数据集概述

基本信息

  • 数据集名称: C2-Evo
  • 论文链接: https://arxiv.org/abs/2507.16518
  • 研究主题: 多模态数据与模型的协同进化,用于自我改进的推理

发布进度

  • C2-Evo 训练代码: 未发布
  • C2-Evo 评估代码: 未发布
  • 训练模型检查点和数据: 未发布

联系方式

  • 联系人: Xiuwei
  • 邮箱: chenxw83@mail2.sysu.edu.cn
  • 问题反馈: 可通过 GitHub issue 提交

引用信息

bibtex @misc{bhaskar2025cache, title={C2-Evo: Co-Evolving Multimodal Data and Model for Self-Improving Reasoning}, author={Xiuwei Chen, Wentao Hu, Hanhui Li, Jun Zhou, Zisheng Chen, Meng Cao, Yihan Zeng, Kui Zhang, Yu-jie Yuan, Jianhua Han, Hang Xu, Xiaodan Liang}, journal={arXiv preprint arXiv:2507.16518}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
C2-Evo数据集通过跨模态数据进化循环和数据-模型进化循环构建,实现了视觉和文本复杂度的协同进化。在跨模态循环中,利用SKETCHPAD生成几何图形,结合GPT-4o生成辅助构造代码,并通过工具执行生成复杂图像,同时使用Doubao模型生成形式化描述。随后,基于预定义原则生成4-10个子问题,并通过GPT-4o过滤不一致的样本,确保视觉和文本语义对齐。数据-模型循环则通过监督微调(SFT)和强化学习(RL)交替优化模型参数,并基于错误率过滤样本,确保任务难度与模型能力动态匹配。
特点
C2-Evo数据集的核心特点在于其动态协同进化机制。首先,通过几何图形与文本问题的复杂度同步提升,解决了传统方法中视觉与文本复杂度不匹配的问题。其次,基于模型实时表现的难度自适应筛选机制,确保了训练数据与模型能力的精准对齐。此外,数据集通过多轮迭代生成,每轮问题推理长度显著增加(如图3所示),体现了任务复杂度的渐进性。最后,数据集覆盖几何推理的多样化场景,包括辅助线构造、定理应用等,为多模态推理提供了丰富的训练样本。
使用方法
使用C2-Evo数据集时,需分阶段实现模型优化。首先加载基础数据集和预训练多模态大模型(如Qwen2-VL),通过跨模态循环生成复杂样本并过滤对齐。随后进入数据-模型循环:采用SFT阶段固定输出结构(如<think></think>模板),通过式(1)优化推理轨迹生成;RL阶段则基于式(2)的GRPO算法,结合准确性奖励和格式奖励微调模型。每轮迭代后,需对生成数据执行32次前向传播计算错误率,保留错误率≥0.3的样本作为下一轮训练集。该流程需配合Jupyter等工具执行图像编辑代码,并依赖OCR技术提取几何图形坐标。
背景与挑战
背景概述
C2-Evo数据集由中山大学、香港理工大学、穆罕默德·本·扎耶德人工智能大学和华为诺亚方舟实验室的研究团队于2025年联合提出,旨在解决多模态大语言模型(MLLMs)在复杂推理任务中的数据与模型协同进化问题。该数据集通过交叉模态数据进化循环和数据-模型协同进化循环,实现了几何图形与文本推理问题的复杂度同步提升,显著提升了模型在数学推理基准(如Geometry3k、MathVista)中的表现。其创新性体现在将SKETCHPAD生成的几何图表与GPT-4o合成的多步骤推理问题动态结合,推动了自改进范式在视觉-语言任务中的应用。
当前挑战
C2-Evo面临的核心挑战包含两方面:领域问题方面,传统多模态数据存在视觉复杂度与文本推理难度不匹配的固有矛盾(如冗余文本描述配简单图表),且静态数据集无法适应模型能力的动态进化;构建过程方面,需攻克跨模态对齐的技术难点——既要通过程序化工具生成符合几何约束的辅助线图像,又要确保合成问题的数学严谨性,同时依赖误差过滤机制动态匹配数据难度与模型能力,这对自动化验证流程的设计提出了极高要求。
常用场景
经典使用场景
C2-Evo数据集在几何推理任务中展现了卓越的应用价值,特别是在需要构建辅助线的复杂几何问题求解中。通过跨模态数据演化循环,该数据集能够生成视觉复杂度与文本推理难度相匹配的问题,为多模态大语言模型(MLLMs)提供了高质量的训练样本。其经典使用场景包括几何证明、角度计算和图形关系推理,这些问题通常需要模型同时理解视觉信息和文本描述,并进行多步逻辑推理。
解决学术问题
C2-Evo数据集解决了多模态推理任务中视觉与文本复杂度不匹配的核心问题。传统方法往往单独增强视觉或文本数据,导致任务难度与模型能力脱节。该数据集通过联合演化训练数据与模型能力,实现了视觉复杂度和文本推理难度的同步提升。此外,其基于错误率的过滤机制确保了任务难度与模型能力的动态对齐,为复杂推理任务的自动化训练提供了新范式。
衍生相关工作
C2-Evo数据集衍生了一系列重要的研究工作。基于其核心思想,后续研究如R1-OneVision探索了跨模态形式化的通用多模态推理方法;Vision-R1则进一步将强化学习应用于视觉感知与深度逻辑推理的结合。此外,MAVIS和R-COT等工作借鉴了C2-Evo的数据生成策略,分别开发了视觉数据引擎和反向思维链问题生成方法,推动了多模态推理领域的持续创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作