ShareGPT-Step-300K

github2025-10-04 更新2025-10-05 收录

下载链接：

https://github.com/baaivision/CoS

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于视觉语言模型监督微调(SFT)的数据集，包含经过特殊标记处理的JSONL格式数据、图像文件以及用于自定义的原始步骤JSONL文件

This is a dataset designed for supervised fine-tuning (SFT) of vision-language models. It includes specially tagged and processed JSONL-formatted data, image files, as well as original step-based JSONL files intended for customization.

创建时间：

2025-09-23

原始信息汇总

CoS数据集概述

数据集简介

CoS（Chain of Step Reasoning）是一个用于视觉语言模型的多模态推理数据集，通过细粒度奖励实现对推理步骤质量的准确评估，支持有效的强化学习和推理时扩展。

数据集组成

ShareGPT-Step-300K数据集

ShareGPT-Step-300K.jsonl：经过特殊标记处理的SFT数据文件
images.zip：图像文件压缩包
raw_jsonl.zip：原始步骤JSONL文件，用于自定义SFT数据集

PRM相关数据

prm_data_raw.json：原始PRM数据
prm_data_train.jsonl：PRM训练JSONL文件

模型资源

预训练模型

CoS-PRM：过程奖励模型
CoS-SFT：监督微调模型
CoS：强化学习模型

数据访问

所有数据集和模型资源均托管在Hugging Face平台：

数据集：https://huggingface.co/datasets/Lauch1ng/CoS-Dataset
PRM模型：https://huggingface.co/Lauch1ng/CoS-PRM/tree/main
SFT模型：https://huggingface.co/Lauch1ng/CoS-SFT
RL模型：https://huggingface.co/Lauch1ng/CoS

许可信息

本数据集采用Apache License 2.0开源协议。

搜集汇总

数据集介绍

构建方式

在视觉语言模型研究领域，ShareGPT-Step-300K数据集通过精心设计的步骤推理链构建而成。该数据集整合了原始步骤JSONL文件与图像资源，采用监督微调数据生成策略，研究人员可通过修改get_sft_json.py脚本实现自定义数据配置。其构建过程注重多模态信息的结构化对齐，为视觉语言推理任务提供了高质量的标注基础。

特点

该数据集展现出多模态融合的显著特性，包含经过特殊标记处理的监督微调数据与原始步骤数据双重版本。其核心优势在于细粒度奖励机制的引入，能够精准评估推理步骤质量，支持强化学习与推理时扩展。数据架构兼顾标准化与灵活性，既提供即用型SFT数据，又保留原始数据供深度定制开发。

使用方法

研究人员可通过HuggingFace平台直接获取预处理的SFT数据文件，快速开展模型微调实验。对于特定研究需求，可利用原始JSONL文件配合自定义脚本生成个性化训练集。数据集支持端到端的工作流程，从基础监督微调到强化学习阶段，为视觉语言模型的步骤推理能力优化提供完整技术路径。

背景与挑战

背景概述

视觉语言模型作为多模态人工智能的核心研究方向，其推理能力直接影响复杂场景的理解效果。由中国科学院自动化研究所与北京智源人工智能研究院联合发布的ShareGPT-Step-300K数据集，聚焦于链式步骤推理机制的构建，通过30万条高质量标注数据，为视觉语言任务提供了细粒度推理轨迹的监督信号。该数据集通过融合图像与文本的协同推理步骤，显著提升了模型在视觉问答、场景解析等任务中的逻辑连贯性与解释性，为多模态推理研究开辟了新范式。

当前挑战

视觉语言推理领域长期面临步骤间逻辑断裂与评估标准模糊的难题，传统方法难以量化中间推理步骤的质量。在数据集构建过程中，需要克服多模态数据对齐的复杂性，确保每个推理步骤既符合视觉语义又保持文本逻辑的一致性。同时，标注过程中需平衡步骤粒度与整体推理目标的关系，避免过度碎片化或过度简化的表述，这对标注人员的跨模态理解能力提出了极高要求。

常用场景

经典使用场景

在视觉语言模型研究领域，ShareGPT-Step-300K数据集主要应用于多模态推理任务的监督微调过程。该数据集通过提供包含详细推理步骤的视觉语言对，使模型能够学习从图像内容到文本生成的中间推理过程。研究人员利用这些精细标注的步骤数据，训练模型掌握复杂的视觉推理能力，特别是在需要多步逻辑推导的视觉问答和图像描述任务中展现出独特价值。

衍生相关工作

基于该数据集衍生的经典工作包括CoS推理框架及其配套的PRM奖励模型，这些成果为视觉语言模型的推理能力评估和优化提供了系统化解决方案。相关工作还推动了多模态推理基准的完善，启发了后续研究在推理步骤质量评估、细粒度奖励机制设计等方向的深入探索，为构建更加智能和可靠的多模态人工智能系统奠定了重要基础。

数据集最近研究