five

S1-Bench

收藏
github2025-04-24 更新2025-05-07 收录
下载链接:
https://github.com/WYRipple/S1_Bench
下载链接
链接失效反馈
官方服务:
资源简介:
S1-Bench: 一个用于评估大型推理模型系统1思维能力的简单基准数据集。

S1-Bench: A simple benchmark dataset for evaluating the reasoning capabilities of large inference model systems.
创建时间:
2025-04-13
原始信息汇总

S1-Bench 数据集概述

数据集基本信息

  • 名称: S1-Bench
  • 用途: 评估大型推理模型的系统1思维能力
  • 发布状态: 已发布
  • 发布日期: 2025年4月13日

数据集发布平台

相关论文

使用方法

  1. 下载开源模型: 提供多个开源LRMs的下载链接,包括DeepSeek、Light-R1、s1.1、EXAONE、Nemotron和Sky-T1系列模型。
  2. 运行脚本:
    • get_LRM_vllm_response.py: 获取LRMs的响应。
    • split_think_answer.py: 处理LRMs的响应格式。
    • get_LRM_eval.py: 使用GPT-4o评估LRMs的最终答案。
    • get_acc_scores.py: 获取评估结果。

实验结果

  • 提供实验结果图表,展示不同模型的表现和token使用情况。

引用

bibtex @misc{zhang2025s1benchsimplebenchmarkevaluating, title={S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models}, author={Wenyuan Zhang and Shuaiyi Nie and Xinghua Zhang and Zefeng Zhang and Tingwen Liu}, year={2025}, eprint={2504.10368}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.10368}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在认知科学领域,S1-Bench数据集通过精心设计的实验框架,构建了一套评估大型推理模型系统1思维能力的基准测试。该数据集采用多模型对比方法,整合了包括DeepSeek、Light-R1、s1.1等系列开源模型,通过标准化的问题集和评估流程,确保数据采集的科学性和可比性。研究人员通过自动化脚本控制模型响应生成,并采用分层处理策略将原始输出分解为思考过程和最终答案两个维度。
特点
作为首个专注于系统1思维评估的基准数据集,S1-Bench具有鲜明的专业特性。其问题设计模拟人类快速直觉判断场景,包含语言理解、模式识别等认知任务。数据集覆盖7B至70B参数规模的多种模型,提供跨模型性能对比的可能。特别值得注意的是,该数据集采用GPT-4o作为评估基准,通过双重验证机制确保评分结果的可靠性。可视化实验数据进一步增强了研究结论的直观性。
使用方法
使用该数据集需遵循标准化评估流程。研究人员需预先配置开源模型路径,通过vLLM框架获取各模型的原始响应输出。随后运行数据处理脚本将响应分解为结构化格式,调用评估模块进行自动评分。最终通过统计分析脚本获取准确率等性能指标。整个过程支持模块化操作,允许研究者灵活选择评估维度。数据集兼容HuggingFace和ModelScope平台,提供跨平台访问的便利性。
背景与挑战
背景概述
S1-Bench是由Wenyuan Zhang等人于2025年提出的一个创新型基准测试数据集,旨在评估大规模推理模型的系统1思维能力。系统1思维作为认知心理学中的核心概念,代表人类快速、直觉式的信息处理模式。该数据集由DeepSeek、Light-R1等多个前沿大模型参与构建,通过arXiv、ModelScope等平台公开发布,为认知计算与人工智能的交叉研究提供了标准化评估工具。其创新性体现在将双系统理论引入大模型评估框架,填补了现有基准在直觉推理能力测评方面的空白,对推动类人认知建模研究具有显著意义。
当前挑战
该数据集主要解决大模型在快速直觉推理任务中的性能量化难题。传统评估方法多关注系统2的慢速逻辑推理,而系统1思维涉及的潜意识加工机制难以通过常规测试捕捉。构建过程中面临多模态数据对齐的挑战,需确保刺激材料能有效触发模型的直觉响应。同时,评估标准的设计需平衡人类认知特性与机器可解释性,避免将人类思维范式简单映射到算法层面。不同参数量级模型的表现可比性、响应时间的标准化测量等问题也增加了基准构建的复杂度。
常用场景
经典使用场景
在认知科学与人工智能交叉领域,S1-Bench数据集为评估大型推理模型的系统1思维能力提供了标准化测试平台。该数据集通过设计一系列需要快速直觉反应的认知任务,模拟人类系统1思维的运作模式,成为衡量模型是否具备类人快速直觉判断能力的重要工具。研究者可利用该数据集对不同规模的模型进行横向对比,揭示模型在快速决策任务中的表现差异。
实际应用
该数据集在智能对话系统优化、紧急决策辅助系统开发等场景展现重要价值。医疗分诊系统可借鉴其评估方法优化快速诊断模块,金融风控领域则能通过类似机制提升风险预警速度。教育科技企业正基于该数据集的评估维度,开发能即时响应学生认知状态的个性化学习系统。
衍生相关工作
围绕S1-Bench已催生多项创新研究,包括《基于双系统理论的大模型认知评估框架》等理论探索,以及Light-R1系列模型的优化实践。阿里云团队借鉴其评估维度开发了商业场景的快速决策测试集,MIT课题组则衍生出结合眼动数据的多模态评估方法。这些工作共同推进了认知智能评估领域的方法创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作