five

ShareGPT-Step-300K

收藏
github2025-10-04 更新2025-10-05 收录
下载链接:
https://github.com/baaivision/CoS
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于视觉语言模型监督微调(SFT)的数据集,包含经过特殊标记处理的JSONL格式数据、图像文件以及用于自定义的原始步骤JSONL文件

This is a dataset designed for supervised fine-tuning (SFT) of vision-language models. It includes specially tagged and processed JSONL-formatted data, image files, as well as original step-based JSONL files intended for customization.
创建时间:
2025-09-23
原始信息汇总

CoS数据集概述

数据集简介

CoS(Chain of Step Reasoning)是一个用于视觉语言模型的多模态推理数据集,通过细粒度奖励实现对推理步骤质量的准确评估,支持有效的强化学习和推理时扩展。

数据集组成

ShareGPT-Step-300K数据集

  • ShareGPT-Step-300K.jsonl:经过特殊标记处理的SFT数据文件
  • images.zip:图像文件压缩包
  • raw_jsonl.zip:原始步骤JSONL文件,用于自定义SFT数据集

PRM相关数据

  • prm_data_raw.json:原始PRM数据
  • prm_data_train.jsonl:PRM训练JSONL文件

模型资源

预训练模型

  • CoS-PRM:过程奖励模型
  • CoS-SFT:监督微调模型
  • CoS:强化学习模型

数据访问

所有数据集和模型资源均托管在Hugging Face平台:

  • 数据集:https://huggingface.co/datasets/Lauch1ng/CoS-Dataset
  • PRM模型:https://huggingface.co/Lauch1ng/CoS-PRM/tree/main
  • SFT模型:https://huggingface.co/Lauch1ng/CoS-SFT
  • RL模型:https://huggingface.co/Lauch1ng/CoS

许可信息

本数据集采用Apache License 2.0开源协议。

搜集汇总
数据集介绍
main_image_url
构建方式
在视觉语言模型研究领域,ShareGPT-Step-300K数据集通过精心设计的步骤推理链构建而成。该数据集整合了原始步骤JSONL文件与图像资源,采用监督微调数据生成策略,研究人员可通过修改get_sft_json.py脚本实现自定义数据配置。其构建过程注重多模态信息的结构化对齐,为视觉语言推理任务提供了高质量的标注基础。
特点
该数据集展现出多模态融合的显著特性,包含经过特殊标记处理的监督微调数据与原始步骤数据双重版本。其核心优势在于细粒度奖励机制的引入,能够精准评估推理步骤质量,支持强化学习与推理时扩展。数据架构兼顾标准化与灵活性,既提供即用型SFT数据,又保留原始数据供深度定制开发。
使用方法
研究人员可通过HuggingFace平台直接获取预处理的SFT数据文件,快速开展模型微调实验。对于特定研究需求,可利用原始JSONL文件配合自定义脚本生成个性化训练集。数据集支持端到端的工作流程,从基础监督微调到强化学习阶段,为视觉语言模型的步骤推理能力优化提供完整技术路径。
背景与挑战
背景概述
视觉语言模型作为多模态人工智能的核心研究方向,其推理能力直接影响复杂场景的理解效果。由中国科学院自动化研究所与北京智源人工智能研究院联合发布的ShareGPT-Step-300K数据集,聚焦于链式步骤推理机制的构建,通过30万条高质量标注数据,为视觉语言任务提供了细粒度推理轨迹的监督信号。该数据集通过融合图像与文本的协同推理步骤,显著提升了模型在视觉问答、场景解析等任务中的逻辑连贯性与解释性,为多模态推理研究开辟了新范式。
当前挑战
视觉语言推理领域长期面临步骤间逻辑断裂与评估标准模糊的难题,传统方法难以量化中间推理步骤的质量。在数据集构建过程中,需要克服多模态数据对齐的复杂性,确保每个推理步骤既符合视觉语义又保持文本逻辑的一致性。同时,标注过程中需平衡步骤粒度与整体推理目标的关系,避免过度碎片化或过度简化的表述,这对标注人员的跨模态理解能力提出了极高要求。
常用场景
经典使用场景
在视觉语言模型研究领域,ShareGPT-Step-300K数据集主要应用于多模态推理任务的监督微调过程。该数据集通过提供包含详细推理步骤的视觉语言对,使模型能够学习从图像内容到文本生成的中间推理过程。研究人员利用这些精细标注的步骤数据,训练模型掌握复杂的视觉推理能力,特别是在需要多步逻辑推导的视觉问答和图像描述任务中展现出独特价值。
衍生相关工作
基于该数据集衍生的经典工作包括CoS推理框架及其配套的PRM奖励模型,这些成果为视觉语言模型的推理能力评估和优化提供了系统化解决方案。相关工作还推动了多模态推理基准的完善,启发了后续研究在推理步骤质量评估、细粒度奖励机制设计等方向的深入探索,为构建更加智能和可靠的多模态人工智能系统奠定了重要基础。
数据集最近研究
最新研究方向
在视觉语言模型领域,ShareGPT-Step-300K数据集正推动多模态推理的前沿探索,其核心在于揭示链式步骤推理机制与细粒度奖励的深度融合。该数据集通过提供结构化步骤数据,支持模型在复杂任务中分解推理过程,并结合强化学习优化每一步的生成质量,显著提升了模型的可解释性和性能泛化能力。这一方向呼应了当前人工智能对透明化决策的需求,尤其在医疗诊断和自动驾驶等高风险场景中,为构建更可靠的多模态系统奠定了数据基础,同时促进了推理评估标准从结果导向向过程导向的范式转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作