s1-m_beta

Name: s1-m_beta
Creator: PKU-Alignment
Published: 2025-03-14 03:12:39
License: 暂无描述

Hugging Face2025-03-14 更新2025-03-15 收录

下载链接：

https://huggingface.co/datasets/PKU-Alignment/s1-m_beta

下载链接

链接失效反馈

官方服务：

资源简介：

S1-M Dataset (Beta)是一个开源的TI2T推理数据集，用于训练S1-M模型（Beta版），使其具备"先思考，后回答"的范式。该数据集的提示和图像来自两个开源数据集：align-anything和multimodal-open-r1-8k-verified，分别占49.62%和50.38%，旨在平衡模型的泛化能力和数学能力。数据标注使用了Claude 3.7模型，通过系统提示引导模型进行思考并提供答案，形成了一个"先思考，后回答"的标注范式。

提供机构：

PKU-Alignment

创建时间：

2025-03-14

搜集汇总

数据集介绍

构建方式

S1-M Dataset (Beta)的构建方式涉及从两个开源数据集——align-anything与multimodal-open-r1-8k-verified中分别抽取提示和图像，分别占数据集的49.62%和50.38%。该数据集旨在通过这种均衡的混合方式，培养模型在普适能力和数学推理方面的均衡表现。数据标注过程中，采用Claude 3.7模型作为标注工具，通过系统提示引导模型先行思考，再作出回答，形成了一个“先思考，后回答”的范式。

特点

该数据集的特点在于其独特的“先思考，后回答”的数据标注范式，以及由此产生的长token分布的标注响应。这种标注方式促使模型在生成回答前进行深入分析，进而形成更加逻辑严密、条理清晰的回答。此外，数据集的均衡来源使其在训练时能够兼顾模型的泛化能力和数学推理能力。

使用方法

使用S1-M Dataset (Beta)时，用户可以从HuggingFace的数据集库中直接加载已训练好的数据集。数据以.parquet格式存储，包含了图像、提示、回答以及数据来源类型等字段。用户可以根据自己的需求对数据集进行切片、抽样或全量训练，以适应不同的模型训练和评估场景。

背景与挑战

背景概述

S1-M Dataset (Beta)是一款开源的TI2T推理数据集，旨在训练S1-M模型，赋予其“先思考，后回答”的范式。该数据集由北京大学Alignment团队开发，创建于近期，并以其独特的推理训练方式在自然语言处理领域引起了关注。数据集中的提示和图像来源于两个开源数据集：align-anything和multimodal-open-r1-8k-verified，以平衡模型在通用能力和数学能力上的表现。数据注释使用Claude 3.7作为注释模型，通过系统提示引导其先思考再提供答案。

当前挑战

在构建S1-M Dataset (Beta)的过程中，研究团队面临了诸多挑战。首先，如何确保数据集中的图像和文本在内容和难度上具有足够的多样性，以训练模型在不同场景下的推理能力是一个关键挑战。其次，数据注释的质量控制同样至关重要，确保注释模型能够准确遵循“先思考，后回答”的范式。此外，数据集在构建过程中还需考虑如何平衡来自不同来源的数据比例，以避免模型对某一来源数据产生过拟合现象。

常用场景

经典使用场景

S1-M Dataset (Beta)作为开源的TI2T推理数据集，其经典使用场景在于训练遵循“先思考，后回答”模式的S1-M模型。该数据集通过提供图像和文本提示，辅以相应的回答和思考过程，旨在训练模型在处理图像和文本信息时的逻辑推理能力。

解决学术问题

该数据集解决了在多模态推理任务中，模型如何有效结合视觉和语言信息进行深入思考的问题。通过特有的数据标注方式，即引导模型在给出答案前进行思考，S1-M Dataset (Beta)有助于提升模型在数学和通用能力上的平衡，为学术研究提供了新的视角和方法。

衍生相关工作

基于S1-M Dataset (Beta)，研究者们已经开展了一系列相关工作，包括但不限于模型性能的评估、推理过程的优化以及新型推理模型的探索。这些工作进一步扩展了数据集的应用范围，推动了多模态推理领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集