STORM-BORN

Name: STORM-BORN
Creator: 北京邮电大学
Published: 2025-06-03 13:25:22
License: 暂无描述

arXiv2025-06-03 更新2025-06-05 收录

下载链接：

https://github.com/lwhere/STORM-BORN

下载链接

链接失效反馈

官方服务：

资源简介：

STORM-BORN是一个来自前沿学术论文的超高难度数学推导数据集，包括密集的人类近似和启发式线索。为了确保可靠性和质量，我们提出了一种新颖的、由人类参与的多代理数据生成框架，集成了推理密集型过滤器、多代理协作和人类数学家的评估。我们整理了一套2000个合成样本，并特意选择了100个最具挑战性的问题。即使是像GPT-o1这样的最先进的模型也只能解决不到5%的问题。在STORM-BORN上进行微调可以将准确率提高7.84%（LLaMA3-8B）和9.12%（Qwen2.5-7B）。随着人工智能逐渐接近数学家水平的推理，STORM-BORN既提供了一个高难度的基准，又提供了一个类似人类的推理训练资源。我们的代码和数据集在https://github.com/lwhere/STORM-BORN上公开可用。

STORM-BORN is an extremely challenging mathematical derivation dataset sourced from cutting-edge academic papers, featuring dense human approximations and heuristic clues. To ensure reliability and quality, we propose a novel human-in-the-loop multi-agent data generation framework that integrates reasoning-intensive filters, multi-agent collaboration, and evaluations by human mathematicians. We compiled a set of 2,000 synthetic samples, and intentionally selected 100 of the most challenging problems. Even state-of-the-art models such as GPT-o1 can solve less than 5% of these problems. Fine-tuning on STORM-BORN can improve the model accuracy by 7.84% for LLaMA3-8B and 9.12% for Qwen2.5-7B. As artificial intelligence gradually approaches human-level mathematical reasoning, STORM-BORN serves as both a high-difficulty benchmark and a human-like reasoning training resource. Our code and dataset are publicly available at https://github.com/lwhere/STORM-BORN.

提供机构：

北京邮电大学

创建时间：

2025-06-02

原始信息汇总

STORM-BORN 数据集概述

数据集简介

名称: STORM-BORN
类型: 数学推导数据集
特点: 专注于密集、近似丰富的推导，包含启发式线索
来源: 最新学术论文，经人类数学家通过多代理、人机交互框架审核
用途:
- 微调大型语言模型（LLMs），增强其推理泛化能力
- 评估模型推理能力的基准

数据集内容

文件结构:
- data/storm_born_top100.jsonl: 100个最困难的问题（来自2000个样本）
- data/storm_born_top100_choice.jsonl: 转换为多选题格式的数据
数据格式: jsonc { "paper": "数据来源", "question": "数学推导/证明的问题", "whole_label": "人类风格的推导/证明" }

数据处理与生成

数据清理: bash python data_generation/clean_data.py --input raw_outputs.jsonl --output data/storm-born.jsonl
数据生成: bash python data_generation/generate_v1.py --config configs/gen_v1.yaml --output-dir data/tmp

评估方法

基准评估

LLM-as-Judge: bash python data_evaluation/benchmark_evaluation/llm_as_judge.py --dataset data/storm-born.jsonl --model gpt-4 --output results/benchmark.json
多选题评估: bash python data_evaluation/benchmark_evaluation/multiple_choice_eval.py --dataset data/storm-born-choice.jsonl --model gpt-4 --output results/benchmark.json

下游任务评估

同分布（i.i.d）评估: bash python data_evaluation/i.i.d_evaluation/eval_iid.py --model_path checkpoints/storm-born-sft --dataset data/iid_task.jsonl --output results/iid_results.json
非分布（o.o.d）评估: bash python data_evaluation/o.o.d_evaluation/eval_ood.py --model_path checkpoints/storm-born-sft --dataset data/ood_task.jsonl --output results/ood_results.json

微调（SFT）

框架: Axolotl
命令: bash cd train/axolotl python train.py --model_name_or_path elephantai/llama-13b --data_path ../../data/storm-born.jsonl --output_dir ../../checkpoints/storm-born-sft --batch_size 4 --epochs 3 --lr 2e-5

引用

bibtex @inproceedings{liu2025stormborn, title = {{STORM}-{BORN}: A Challenging Mathematical Derivations Dataset Curated via a Human-in-the-Loop Multi-Agent Framework}, author = {Liu, Wenhao and Lu, Zhenyi and Hu, Xinyu and Zhang, Jerry and Li, Dailin and Cen, Jiacheng and Cao, Huilin and Wang, Haiteng and Li, Yuhan and Xie, Kun and Li, Dandan and Zhang, Pei and Zhang, Chengbo and Ren, Yuxiang and Ma, Yan and Huang, Xiaohong}, booktitle = {The 63rd Annual Meeting of the Association for Computational Linguistics}, year = {2025}, url = {https://github.com/lwhere/STORM-BORN} }

许可证

类型: MIT License

搜集汇总

数据集介绍

构建方式

STORM-BORN数据集的构建采用了人机协同的多智能体框架，通过三个主要步骤实现：首先，从arXiv等学术平台筛选具有丰富数学推导内容的高质量论文；其次，利用多智能体系统（包括数学表达式提取、问题生成、答案检索等模块）自动生成问题-答案对；最后，由数学专家团队对生成的2000个样本进行严格筛选，保留最具挑战性的100个问题。整个过程强调推理密度和人类思维模式，确保数据的前沿性和可靠性。

使用方法

该数据集主要服务于大型语言模型的数学推理能力评估与提升。使用时可分为三个层面：作为基准测试工具，直接评估模型对复杂数学推导的解决能力；作为训练资源，通过微调显著提升模型在MATH等数值推理任务上的表现（如LLaMA3-8B准确率提升7.84%）；作为研究平台，其人类专家标注的推导步骤为可解释AI研究提供珍贵样本。使用需配合论文提供的多智能体框架代码，确保问题生成与评估的一致性。

背景与挑战

背景概述

STORM-BORN数据集由北京邮电大学等机构的研究团队于2025年创建，旨在解决现有数学推理数据集在挑战性、人类思维模拟和可靠性方面的不足。该数据集从顶级学术论文中精选了2000个数学推导样本，并进一步筛选出最具挑战性的100个问题，其核心研究问题是提升大型语言模型在复杂数学推导任务中的推理能力。作为首个专注于自然语言数学推导的超难数据集，STORM-BORN通过融合人类专家评估与多智能体协作框架，为AI系统的数学推理能力设立了新基准，显著推动了可解释推理研究的发展。

当前挑战

STORM-BORN主要面临双重挑战：在领域问题层面，需解决现有数据集数学复杂度不足（如GSM8K仅含中小学水平问题）与形式化证明数据集（如MiniF2F）缺乏直观推理的问题；在构建层面，面临学术论文公式提取的完整性挑战（OCR技术局限）、多智能体协同生成中的指令跟随难题，以及专家级推导步骤验证的高成本问题。尤其需要平衡自动生成的效率与人类验证的准确性，确保每个推导样本包含至少三个推理步骤且符合数学家级严谨性。

常用场景

经典使用场景

STORM-BORN数据集在数学推理领域具有广泛的应用价值，尤其在推动大型语言模型（LLMs）的数学推理能力方面表现突出。该数据集通过从顶级学术论文中提取复杂的数学推导问题，为研究者提供了一个高难度的基准测试平台。其经典使用场景包括评估和提升LLMs在数学推导、定理证明和数值推理等方面的能力。通过STORM-BORN，研究者可以深入分析模型在解决复杂数学问题时的表现，从而优化模型的推理能力。

解决学术问题

STORM-BORN数据集解决了现有数学数据集在复杂性、人类推理模式和可靠性方面的不足。具体而言，它填补了现有数据集在高级数学推理任务上的空白，提供了更具挑战性的问题。此外，STORM-BORN通过多智能体协作和人类专家评估，确保了数据的可靠性和高质量标注。该数据集还推动了数学推理领域的研究，为探索LLMs在数学推导中的上限提供了重要资源。

实际应用

STORM-BORN数据集在实际应用中展现出强大的潜力。它不仅可用于评估和优化LLMs的数学推理能力，还可作为教育工具，帮助学生和研究者理解复杂的数学推导过程。此外，该数据集在自动定理证明、数值计算和公式推导等领域也有广泛应用。通过STORM-BORN，研究者和开发者可以构建更强大的数学推理系统，推动人工智能在数学领域的应用。

数据集最近研究