Zebra-CoT
收藏arXiv2025-07-23 更新2025-08-14 收录
下载链接:
https://huggingface.co/datasets/multimodal-reasoning-lab/Zebra-CoT
下载链接
链接失效反馈官方服务:
资源简介:
Zebra-CoT是一个大规模的多样化数据集,包含182,384个逻辑上连贯的交错文本-图像推理轨迹样本,涵盖了科学问题、二维视觉推理、三维视觉推理以及视觉逻辑和策略游戏等四个主要类别。该数据集通过从现实世界领域收集和清洗原始轨迹,以及使用VLMs填充模板推理来生成合成示例。Zebra-CoT旨在解决当前视觉语言模型在视觉推理方面的局限性,并通过提供高质量的交错文本和图像推理训练数据来推动视觉推理能力的发展。
Zebra-CoT is a large-scale, diverse dataset containing 182,384 logically coherent interleaved text-image reasoning trace samples across four primary categories: scientific problems, 2D visual reasoning, 3D visual reasoning, and visual logic and strategy games. This dataset is constructed by collecting and cleaning raw reasoning traces from real-world domains, as well as generating synthetic samples using VLMs to populate template-based reasoning trajectories. Zebra-CoT is designed to address the existing limitations of visual-language models in visual reasoning, and advance the development of visual reasoning capabilities by supplying high-quality interleaved text-image reasoning training data.
提供机构:
哥伦比亚大学, 马里兰大学, 南加州大学, 纽约大学
创建时间:
2025-07-23
搜集汇总
数据集介绍

构建方式
Zebra-CoT数据集的构建采用了多源数据整合与合成生成相结合的策略。研究团队从几何、物理、算法等科学问题,以及视觉搜索、拼图等2D视觉推理任务中收集真实世界数据,并通过程序化模板生成合成样本。利用Gemini-2.5和GPT-4.1等视觉语言模型对原始推理轨迹进行增强,确保文本与图像模态间的逻辑连贯性。数据清洗过程中严格过滤无效案例,最终形成包含182,384个样本的大规模多模态推理数据集。
特点
该数据集的核心价值在于其跨领域的多模态推理能力支持,涵盖科学问题、2D/3D视觉推理及战略游戏等4大类18个子领域。每个样本包含交替出现的文本推理步骤和视觉辅助图像,其中视觉元素不仅作为补充说明,更是推理过程中不可或缺的组成部分。特别设计了化学分子结构图、物理自由体受力图等专业可视化内容,以及棋盘推演、迷宫导航等复杂空间推理场景,为模型提供了丰富的跨模态关联学习素材。
使用方法
使用该数据集时,建议采用端到端的多模态微调策略。对于Anole-7B等基础模型,可通过12,000token的序列长度设置进行全参数微调,学习率设为1e-5并采用余弦衰减。针对Bagel-7B等原生不支持多模态生成的模型,需在训练循环中引入<|vision_start|>标记的损失项。推理阶段采用自回归生成方式,当模型输出<im_end>标记时触发视觉token生成。评估时可参考MathVista、VisuLogic等7个专业基准测试,重点关注模型在几何证明、物理问题求解等需要视觉辅助推理任务上的表现提升。
背景与挑战
背景概述
Zebra-CoT数据集由哥伦比亚大学、马里兰大学、南加州大学和纽约大学的研究团队于2025年联合推出,旨在解决多模态推理中的视觉思维链(Visual Chain of Thought, visual CoT)问题。该数据集包含182,384个样本,覆盖科学问题(如几何、物理、算法)、2D视觉推理(如视觉搜索、拼图)、3D推理(如3D多跳推理、机器人规划)以及视觉逻辑与策略游戏(如国际象棋)四大类任务。Zebra-CoT通过精细标注的文本-图像交替推理轨迹,为训练多模态模型提供了高质量数据,显著提升了模型在视觉推理任务中的性能,例如在Anole-7B模型上实现了12%的准确率提升。
当前挑战
Zebra-CoT面临的挑战主要包括两方面:领域问题的复杂性和数据构建的困难。在领域问题方面,视觉思维链需要模型在推理过程中动态生成并利用视觉辅助(如草图、图表),这对模型的跨模态对齐和逻辑一致性提出了极高要求,尤其是在几何、物理等需要精确空间推理的任务中。数据构建方面,现有多模态数据集普遍存在语义对齐弱、推理结构缺失的问题,而Zebra-CoT需确保文本与图像的逻辑连贯性,例如处理几何问题时需将代码渲染为图像,并生成对应的推理说明。此外,合成数据的多样性和真实性平衡、视觉编程工具的错误调试信息过滤,以及大规模高质量标注的成本控制,均为构建过程中的核心挑战。
常用场景
经典使用场景
在视觉-语言联合推理领域,Zebra-CoT数据集通过182,384个逻辑连贯的多模态推理样本,为模型提供了丰富的训练资源。该数据集特别适用于几何证明、物理力学分析等需要视觉辅助推理的科学问题,以及视觉搜索、拼图游戏等2D视觉任务,同时在3D空间推理和棋类策略游戏等复杂场景中展现出独特价值。其精心设计的文本-图像交错结构,使得模型能够模拟人类绘制示意图辅助思考的认知过程。
实际应用
在实际应用层面,Zebra-CoT支持的模型可应用于教育领域的智能解题系统,通过生成几何证明示意图或力学分析图表辅助学习;在机器人领域赋能复杂任务的视觉规划能力,如根据环境状态图像序列生成操作指令;其棋类推理数据还能增强AI对战略游戏的决策透明度。这些应用显著提升了多模态AI在需要视觉化思考场景下的实用性和可解释性。
衍生相关工作
该数据集推动了多项视觉推理研究的进展:基于Bagel-7B微调的模型首次实现了原生交错生成文本与视觉推理链的能力;在Anole-7B上的实验验证了多模态思维链对模型性能的系统性提升。相关工作如Visual Sketchpad的视觉编程框架、COT-VLA的机器人动作推理等,均借鉴了Zebra-CoT的数据构建理念,形成了跨任务泛化的视觉推理方法论体系。
以上内容由遇见数据集搜集并总结生成



