ShareGPT-Step-300K

Name: ShareGPT-Step-300K
Creator: 中国科学院自动化研究所, 中国科学院大学人工智能学院, 北京人工智能研究院
Published: 2025-09-23 21:47:32
License: 暂无描述

arXiv2025-09-23 更新2025-11-21 收录

下载链接：

https://hf-mirror.com/datasets/Lauch1ng/CoS-Dataset/blob/main/ShareGPT-Step-300K.jsonl

下载链接

链接失效反馈

官方服务：

资源简介：

ShareGPT-Step-300K数据集是一个包含30万个结构化推理步骤样本的集合，旨在帮助视觉-语言模型(VLMs)进行细粒度的推理。该数据集由GPT-4o构建，涵盖了科学推理、数学推理、图表和文档分析以及世界知识等17个数据集，每个步骤都包含名称、思想和反思三个组成部分。通过使用该数据集，VLMs能够输出逐步的推理链条，从而提高其推理能力。

提供机构：

中国科学院自动化研究所, 中国科学院大学人工智能学院, 北京人工智能研究院

创建时间：

2025-09-23

搜集汇总

数据集介绍

构建方式

在视觉语言推理领域，为构建细粒度结构化推理数据，ShareGPT-Step-300K数据集通过GPT-4o模型生成，以问题及其标准答案为参考，逆向推导出逐步推理链条。每个推理步骤严格遵循“名称-思考-反思”的三元结构，并采用特殊标记进行格式控制，确保逻辑连贯性与视觉内容关联性。数据源涵盖数学推理、科学分析、图表解析及常识问答等17类多模态任务，经过严格清洗过滤后形成30万高质量样本。

特点

该数据集的核心特征在于其细粒度结构化设计，将推理过程分解为具有明确语义边界的独立步骤，每个步骤包含概括性名称、详细思维过程及与视觉信息的反思性关联。这种设计不仅提升了推理链条的可解释性，更为过程奖励模型提供了精准评估基础。数据集覆盖多领域复杂推理场景，其标准化输出格式突破了传统粗粒度推理的局限性，为视觉语言模型的系统性思维训练奠定基础。

使用方法

该数据集支持三阶段训练流程：首先通过监督微调使模型掌握结构化推理能力；继而利用过程标注数据训练奖励模型，实现对中间步骤的量化评估；最终结合细粒度奖励进行迭代式直接偏好优化，强化模型的推理质量。在推理阶段，可基于步骤级束搜索策略动态优化生成路径，该使用方法显著提升了模型在数学视觉、科学推理等挑战性任务中的表现。

背景与挑战

背景概述

ShareGPT-Step-300K数据集由中国科学院自动化研究所与北京智源人工智能研究院于2025年联合构建，旨在解决视觉语言模型在复杂推理任务中面临的细粒度结构化思维挑战。该数据集通过GPT-4o生成30万条结构化多步推理样本，覆盖数学推理、科学问答、图表分析等17类任务，为视觉语言模型的链式推理能力提供了标准化训练基础。其创新性在于将推理过程分解为名称、思考与反思三个组件，显著提升了模型对中间推理步骤的质量评估与强化学习效果，推动了多模态推理研究向精细化方向发展。

当前挑战

该数据集主要应对两大挑战：在领域问题层面，传统视觉语言模型的粗粒度推理链难以执行系统化结构化推断，导致推理过程冗长混乱且无法有效评估中间步骤质量；在构建过程中，需解决步骤定义与评估的难题，包括如何将整体推理链分解为逻辑连贯的渐进步骤，以及如何为每一步提供细粒度奖励信号以支持训练与推理优化。此外，数据生成需克服多模态任务差异性与质量控制的复杂性，确保300K样本均符合严格的结构化格式标准。

常用场景

经典使用场景

在视觉语言模型的多模态推理研究中，ShareGPT-Step-300K数据集被广泛应用于结构化思维链的生成与评估。该数据集通过精细划分的推理步骤模板，支持模型在数学推理、科学问答和图表分析等复杂任务中构建连贯的推理路径。其独特的“名称-思考-反思”三步式结构，为视觉语言模型提供了清晰的中间推理监督信号，显著提升了模型在几何证明、代数计算等需要多步推导任务中的表现。

衍生相关工作

该数据集催生了多个重要研究方向，包括LLaVA-CoT对视觉思维链推理的扩展研究，以及URSA在多模态数学推理验证方面的创新。过程奖励模型的提出启发了Math-Shepherd在纯数学推理领域的应用迁移，而迭代直接偏好优化方法则推动了Insight-V在多智能体推理系统的发展。这些衍生工作共同构成了视觉语言推理领域从粗粒度到细粒度演进的技术脉络。

数据集最近研究