s1-sft-filtered

Hugging Face2025-10-25 更新2025-10-26 收录

下载链接：

https://huggingface.co/datasets/davidanugraha/s1-sft-filtered

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含数学、物理、化学等领域问题的数据集，适用于教育或竞赛场景。数据集中的问题来源于多个教育资源和竞赛平台，包括但不限于数学奥林匹克、生物奥林匹克等。每个问题都包含了问题的文本描述、答案以及解题推理过程。

创建时间：

2025-10-20

原始信息汇总

数据集概述

基本信息

数据集名称: davidanugraha/s1-sft-filtered
数据量: 12424个样本
存储大小: 207.38 MB
下载大小: 94.22 MB
数据格式: 支持训练集分割

特征结构

id: 整型标识符
question: 字符串类型问题
source_type: 分类标签，包含47个数据来源
metadata: 字符串类型元数据
full_reasoning_trace: 完整推理轨迹
response: 模型响应
answer: 标准答案
scratch_note_trace: 草稿笔记轨迹
scratch_note_response: 草稿笔记响应
scratch_note_answer: 草稿笔记答案

数据来源分类

涵盖数学、物理、化学、生物等多个学科领域，包括：

奥林匹克竞赛题目
学术基准测试
专业领域问答
定理证明问题
标准化考试题目

搜集汇总

数据集介绍

构建方式

作为科学推理领域的重要资源，s1-sft-filtered数据集通过系统整合多个权威科学竞赛和学术评估平台的数据构建而成。其构建过程采用多源融合策略，从AOPS论坛、奥林匹克竞赛题库到专业学科评估框架等47个知识源中精选样本，每个样本均包含完整的推理链条和标准化答案标注。数据集通过严格的筛选机制确保题目质量，覆盖数学定理证明、物理实验分析到化学试剂选择等专业领域，形成了具有逻辑一致性的科学推理语料库。

特点

该数据集最显著的特征在于其多维度的结构化设计，每个样本不仅包含基础的问题-答案对，还完整保留了推理过程的全轨迹记录。独特的双轨标注体系将正式解答与草稿笔记分离存储，为研究复杂推理模式提供了丰富素材。数据来源的多样性体现在涵盖初等数学到理论物理等十余个学科分支，且问题类型囊括选择题、证明题和开放性问题等多种形式，这种跨学科跨题型的特性使其成为研究科学认知过程的理想实验平台。

使用方法

在使用该数据集时，研究者可通过特征字段的灵活组合实现多维度分析。典型的应用路径包括利用完整推理轨迹训练思维链模型，或通过对比正式解答与草稿笔记研究认知偏差。数据集的标准化字段设计支持端到端的监督学习流程，既可直接用于微调基础语言模型，也能通过拆分不同学科来源构建领域特定的评估基准。建议优先关注source_type字段进行学科分类研究，结合metadata中的补充信息开展细粒度分析。

背景与挑战

背景概述

s1-sft-filtered数据集作为科学推理领域的重要资源，由多个研究机构联合构建，汇集了来自数学、物理、化学、生物及天文学等学科的复杂问题。该数据集整合了包括奥林匹克竞赛试题、专业资格认证题目及学术论坛讨论在内的多样化来源，旨在推动人工智能在科学问题解决与逻辑推理方面的发展。其构建体现了跨学科知识融合的趋势，为评估模型在复杂科学语境下的推理能力提供了标准化基准。

当前挑战

该数据集面临的核心挑战在于解决多学科交叉问题的语义理解与推理链条构建，要求模型同时掌握数学符号运算与自然语言语义的关联性。构建过程中需克服异构数据源的格式统一难题，包括从论坛非结构化文本提取数学证明、平衡不同学科样本分布，以及确保专业术语在不同语境下的准确性。此外，标注完整推理轨迹需协调领域专家知识，避免因学科壁垒导致逻辑断层。

常用场景

经典使用场景

在科学推理与数学问题求解领域，s1-sft-filtered数据集凭借其涵盖数学、物理、化学及生物等多学科的问题类型，成为训练和评估大型语言模型推理能力的核心资源。该数据集通过整合奥林匹克竞赛题目、定理证明任务及专业学科选择题，为模型提供了从基础概念到复杂逻辑推导的完整训练框架，显著提升了模型在跨学科场景下的泛化性能。

解决学术问题

该数据集有效应对了人工智能领域中对复杂科学问题自动求解的挑战，通过提供包含完整推理链条的标注数据，解决了模型在符号推理、多步计算和知识融合方面的技术瓶颈。其结构化的问题表述与答案验证机制，为研究科学问答系统的可解释性提供了实验基础，推动了认知智能在学术研究中的深入发展。

衍生相关工作

基于该数据集衍生的经典研究包括多模态推理模型的联合训练框架，以及针对数学定理证明的神经符号计算方法。这些工作通过融合数据集中不同来源的问题特征，发展了新型的注意力机制与知识蒸馏技术，进一步拓展了科学问答系统在开放域场景下的应用边界。

以上内容由遇见数据集搜集并总结生成