STORM-BORN

github2025-05-19 更新2025-05-20 收录

下载链接：

https://github.com/lwhere/STORM-BORN

下载链接

链接失效反馈

官方服务：

资源简介：

STORM-BORN是一个挑战性的基准数据集，专注于人类类似的数学推导，旨在推动大型语言模型的推理能力。它不同于传统的数值或形式证明，而是侧重于密集、近似丰富的推导，带有启发式提示，这些推导来自最新的学术论文，并通过多代理、人类参与的框架由人类数学家审核。

STORM-BORN is a challenging benchmark dataset focused on human-like mathematical reasoning, designed to advance the reasoning capabilities of large language models (LLMs). Unlike traditional numerical or formal proofs, it centers on dense, approximation-rich derivations equipped with heuristic prompts. These derivations are sourced from cutting-edge academic papers and have been reviewed by human mathematicians via a multi-agent, human-in-the-loop framework.

创建时间：

2025-05-19

原始信息汇总

STORM-BORN 数据集概述

数据集简介

名称：STORM-BORN
类型：数学推导基准数据集
特点：专注于密集、近似丰富的推导过程，包含启发式线索
来源：最新学术论文，经人类数学家通过多代理人工参与框架验证
用途：
- 微调大型语言模型（LLMs）以增强其推理泛化能力
- 评估模型推理能力的基准

数据结构

文件格式：JSONL
主要文件：
- data/storm_born_top100.jsonl：包含100个最具挑战性的问题（来自2000个样本）
- data/storm_born_top100_choice.jsonl：转换为多选题格式的数据
数据字段： json { "paper": "数据来源", "question": "数学推导/证明问题", "whole_label": "人类式推导/证明过程" }

评估方法

基准评估（LLM-as-Judge）：
- 使用LLM判断模型在STORM-BORN上的答案
- 脚本：data_evaluation/benchmark_evaluation/llm_as_judge.py
基准评估（选择题）：
- 使用LLM在STORM-BORN-CHOICE上选择正确答案
- 脚本：data_evaluation/benchmark_evaluation/multiple_choice_eval.py
下游任务评估：
- 同分布（i.i.d.）评估：
  - 脚本：data_evaluation/i.i.d_evaluation/eval_iid.py
- 非同分布（o.o.d.）评估：
  - 脚本：data_evaluation/o.o.d_evaluation/eval_ood.py

微调方法

框架：Axolotl SFT框架
命令示例： bash python train.py --model_name_or_path elephantai/llama-13b --data_path ../../data/storm-born.jsonl --output_dir ../../checkpoints/storm-born-sft --batch_size 4 --epochs 3 --lr 2e-5

引用

bibtex @inproceedings{liu2025stormborn, title = {{STORM}-{BORN}: A Challenging Mathematical Derivations Dataset Curated via a Human-in-the-Loop Multi-Agent Framework}, author = {Liu, Wenhao and Lu, Zhenyi and Hu, Xinyu and Zhang, Jerry and Li, Dailin and Cen, Jiacheng and Cao, Huilin and Wang, Haiteng and Li, Yuhan and Xie, Kun and Li, Dandan and Zhang, Pei and Zhang, Chengbo and Ren, Yuxiang and Ma, Yan and Huang, Xiaohong}, booktitle = {The 63rd Annual Meeting of the Association for Computational Linguistics}, year = {2025}, url = {https://github.com/lwhere/STORM-BORN} }

许可证

类型：MIT License

搜集汇总

数据集介绍

构建方式

STORM-BORN数据集的构建过程体现了严谨的学术规范与创新的多智能体协同机制。研究团队从最新数学论文中精选富含启发式线索的数学推导案例，通过人类数学家参与的多轮校验流程确保内容质量。采用多智能体框架生成初始推导文本后，经过数据清洗模块去除噪声并标准化格式，最终形成结构化JSONL文件。这种人类专家与AI协同的混合构建模式，既保证了数学严谨性，又保留了真实学术推导中的思维跳跃特性。

特点

该数据集的核心价值在于其独特的数学推理密集特性与近似推导范式。相较于传统数学数据集，STORM-BORN刻意保留了学术推导中常见的启发式线索和近似计算步骤，更贴近人类数学家的真实思考过程。数据集包含2000个精选案例，其中特别标注的Top100难题可作为模型能力试金石。创新设计的多选题格式转换方案，将开放式推导评估转化为可量化的选择任务，为模型能力评估提供了客观标准。

使用方法

研究者可通过三种主要方式利用该数据集资源。作为训练数据时，可使用内置的Axolotl框架进行监督微调，提升模型在数学推导任务上的表现。评估环节支持LLM-as-Judge和多选题两种测评模式，分别适用于开放式生成和结构化选择场景。下游任务评估模块包含同分布和跨分布测试脚本，支持全面验证模型泛化能力。数据生成管道允许研究者复现构建过程，或基于现有框架扩展新的数学推导案例。

背景与挑战

背景概述

STORM-BORN数据集由Wenhao Liu等研究人员于2025年提出，旨在推动大语言模型在数学推导领域的推理能力。该数据集聚焦于密集且富含近似计算的数学推导过程，其内容源自最新学术论文，并通过多智能体框架结合人类专家验证进行筛选。不同于传统数值计算或形式化证明，STORM-BORN强调启发式线索和人类思维模拟，为数学推理领域提供了新的研究范式。作为ACL会议收录的成果，该数据集通过微调大语言模型显著提升了其在其他数学推理任务中的泛化能力，成为评估模型复杂推理能力的重要基准。

当前挑战

STORM-BORN数据集面临双重挑战：在领域问题层面，数学推导过程涉及大量近似计算和启发式跳跃，要求模型具备人类数学家的直觉思维，这对现有大语言模型的符号推理和逻辑连贯性构成严峻考验；在构建技术层面，由于高质量数学推导样本稀缺，研究团队需采用多智能体协同框架生成候选样本，再通过人类数学家参与的循环验证机制确保推导质量，这种人工密集型流程导致数据集规模受限。此外，将开放式推导问题转化为可自动评估的多选题形式时，如何保持原问题的语义深度和推理复杂度成为方法论上的关键挑战。

常用场景

经典使用场景

在人工智能领域，STORM-BORN数据集为大型语言模型（LLMs）的数学推理能力评估提供了独特场景。该数据集通过模拟人类数学推导过程，包含密集且富含启发式线索的近似推导，为模型提供了复杂推理任务的训练环境。其多选形式的评估机制，有效解决了生成式答案难以自动评分的难题，成为测试模型逻辑严密性和数学直觉的重要工具。

解决学术问题

STORM-BORN针对当前LLMs在复杂数学推导中存在的泛化能力不足问题，构建了基于真实学术论文的严谨测试基准。通过人类数学家参与的闭环验证机制，该数据集填补了传统数值计算与形式化证明之间的研究空白，为衡量模型处理模糊性、启发式推理等高级认知能力提供了量化标准，推动了可解释AI在数学领域的发展。

衍生相关工作

基于STORM-BORN的评估范式，研究者开发了MathAgent等新型推理架构，其分层决策机制显著提升了数学定理证明的完成度。数据集启发的多轮验证方法被应用于ProofNet等衍生项目，促进了形式化数学与神经符号计算的融合。相关技术路线更延伸至物理建模领域，催生了HyPhy等跨学科推理系统。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集