SI-Lab/StepCountQA-SFT

Name: SI-Lab/StepCountQA-SFT
Creator: SI-Lab
Published: 2026-05-01 18:49:35
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/SI-Lab/StepCountQA-SFT

下载链接

链接失效反馈

官方服务：

资源简介：

StepCountQA-SFT是一个多模态的监督微调数据集，专门用于视觉对象计数，并包含逐步推理。该数据集基于PixMo-Count和PixMo-Points构建，用于微调视觉语言模型（如Qwen2.5-VL）进行视觉计数和链式推理。数据集包含1,005,633个训练条目，格式为ShareGPT格式（系统→人类→GPT），每个条目包含一个嵌入式JPEG图像。数据集的大小约为226 GB，计数范围分布为0-5（约400K条目）、6-10（约205K条目）和11-50（约400K条目）。数据集遵循ODC-BY-1.0许可证。

StepCountQA-SFT is a multimodal supervised fine-tuning (SFT) dataset for visual object counting with step-by-step reasoning. Built from PixMo-Count and PixMo-Points, it is used to fine-tune vision-language models (e.g., Qwen2.5-VL) on visual counting with chain-of-thought reasoning. The dataset contains 1,005,633 training entries in ShareGPT format (system → human → gpt), each with an embedded JPEG image. The dataset size is approximately 226 GB, with count range distributions of 0–5 (~400K entries), 6–10 (~205K entries), and 11–50 (~400K entries). The dataset is licensed under ODC-BY-1.0.

提供机构：

SI-Lab

搜集汇总

数据集介绍

构建方式

StepCountQA-SFT数据集基于PixMo-Count与PixMo-Points两大视觉计数数据源构建而成，旨在为视觉语言模型提供步骤化推理能力的监督微调训练素材。通过将原始点标注与计数信息转化为符合ShareGPT对话格式的结构化数据，每个样本包含系统指令、人类提问与模型回答的完整交互链条，并嵌入JPEG图像，最终以Parquet格式分片存储，共包含超过100万条训练样本。

特点

该数据集最显著的特点在于其融合了链式推理机制与视觉计数任务，模型回答中不仅包含最终计数结果，还通过<point>标签引导模型逐步定位目标实例，形成从局部到整体的思考路径。计数范围覆盖0至50，其中0-5与11-50区间各约40万条，保证了数据分布的均衡性与多样性。此外，数据格式兼容LLaMA-Factory与HuggingFace Datasets库，便于直接用于主流的视觉语言模型微调流程。

使用方法

在LLaMA-Factory中，用户需先运行下载脚本获取所有Parquet分片并解压图像，生成包含绝对路径的JSON文件，随后在dataset_info.json中注册为sharegpt格式的数据集，并映射消息与图像列。亦可直接通过HuggingFace Datasets库以流式加载方式快速获取样本，每个样本自动解码为PIL图像与对话列表，适用于Qwen2.5-VL等模型的步骤化视觉计数任务微调。

背景与挑战

背景概述

视觉计数作为多模态理解领域的一项基础性任务，要求模型不仅能定位图像中的目标，还需精准输出其数量。在这一背景下，StepCountQA-SFT数据集于近期由SI-Lab研究团队构建，旨在弥补现有基准在步骤化推理计数上的不足。该数据集基于Allen AI的PixMo-Count与PixMo-Points，经过精心转化与扩充，生成了超过一百万条包含逐步推理链的多轮对话样本。通过对Qwen2.5-VL等视觉语言模型进行监督微调，StepCountQA-SFT推动了计数任务从仅输出数值向解释性、可验证的思维链推理范式演进，为提升模型在复杂视觉场景下的数值推理能力提供了关键资源。

当前挑战

视觉计数领域面临的根本挑战在于区分稀疏与密集场景、处理遮挡及尺度变化，同时避免重复或遗漏计数，这要求模型具备精细的感知与逻辑组合能力。StepCountQA-SFT在构建过程中也遭遇双重难题：首先，如何从原始点标注数据中自动生成高质量、连贯的思维链对话，需克服噪音与歧义；其次，数据集规模达到226GB，包含超过一百万个样本，如何在有限计算资源下完成数据的清洗、格式统一与多轮对话的校验，并兼容LLaMA-Factory等微调框架，对数据工程提出了极高要求。

常用场景

经典使用场景

在视觉与语言交叉研究领域中，视觉对象计数任务一直是衡量多模态模型细粒度感知能力的重要基准。StepCountQA-SFT数据集专为训练视觉语言模型在图像中进行物体计数并输出逐步推理链（Chain-of-Thought）而设计。其典型使用场景是作为监督微调（SFT）数据，以问答对形式驱动模型从图像中准确数出指定类别物体的数量，并以结构化的中间步骤（如点标注、计数分解）引导模型逐步输出最终答案。该数据集包含超过一百万条训练样本，覆盖从0到50的广泛计数范围，尤其强调通过点定位与数量推理的联合学习来提升模型在复杂视觉场景下的计数鲁棒性。

解决学术问题

视觉计数作为多模态理解的核心子问题，长期面临模型“数不准”与“解释不清”的双重困境。传统数据集常忽略推理过程，导致模型仅停留在表面模式匹配而缺乏可解释性。StepCountQA-SFT通过引入逐步推理标注机制，系统性地解决了视觉计数中模型缺乏中间推理能力、对密集或小目标计数失效、以及输出结果难以验证等关键学术难题。该数据集的提出推动了多模态模型从简单感知向结构化推理范式的演进，为构建可解释、可溯源的视觉问答系统奠定了数据基础，其影响力在评估模型计数准确率与推理连贯性方面尤为显著。

衍生相关工作

StepCountQA-SFT的出现催生了一系列围绕视觉计数推理的进阶工作。一方面，研究者基于该数据集的推理格式开发了多种多模态大模型（如Qwen2.5-VL）的计数专用微调版本，显著提升了模型在零样本计数任务上的迁移表现。另一方面，该数据集启发了点标注与逐步推理联合学习的范式，衍生出点引导的密集目标检测、计数-定位联合模型等研究方向。在数据层面，后续工作借鉴其构建流程，推出了面向视频帧计数、三维空间计数等拓展领域的数据集，逐步完善了视觉计数推理的数据生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集