StatEval
收藏arXiv2025-10-11 更新2025-10-14 收录
下载链接:
https://github.com/StatEval/StatEval
下载链接
链接失效反馈官方服务:
资源简介:
StatEval是一个全面的大规模基准测试,用于评估大型语言模型在统计学领域的推理能力。它包括13,817个基础性问题,涵盖本科和研究生课程,以及2,374个来自顶级期刊的研究级证明任务。数据集内容丰富,来源广泛,涵盖了概率论、统计推断、回归分析、贝叶斯方法、多变量统计、渐近理论、实验设计等领域。StatEval的构建过程采用了可扩展的多智能体管道,并有人工验证环节,以确保学术严谨性。该数据集旨在帮助研究人员和开发者更好地理解和改进大型语言模型在统计学领域的推理能力。
StatEval is a comprehensive large-scale benchmark for evaluating the reasoning capabilities of large language models (LLMs) in the field of statistics. It includes 13,817 foundational questions covering undergraduate and graduate-level coursework, as well as 2,374 research-level proof tasks sourced from top-tier academic journals. The dataset has rich content and diverse sources, spanning a wide range of subfields including probability theory, statistical inference, regression analysis, Bayesian methods, multivariate statistics, asymptotic theory, experimental design, and more. Its construction adopts a scalable multi-agent pipeline, with manual verification procedures to ensure academic rigor. This benchmark aims to help researchers and developers better understand and improve the reasoning capabilities of LLMs in the domain of statistics.
提供机构:
上海财经大学, 北卡罗来纳大学教堂山分校
创建时间:
2025-10-11
原始信息汇总
StatEval数据集概述
数据集简介
StatEval是首个专注于统计学的综合性基准测试,旨在评估大语言模型在不同领域和难度级别下的统计推理能力。
数据集构成
基础知识数据集
- 数据位置:https://huggingface.co/datasets/0v01111/StatEval-Foundational-knowledge
- 评估领域:概率论、统计学、机器学习
- 学术级别:
- 本科水平:涵盖基础概率、描述性统计、假设检验和基础机器学习算法
- 研究生水平:包括测度论概率、统计推断、渐近理论和高级机器学习技术
- 问题类型:概念回忆、多项选择题、开放式问题解决场景
统计研究数据集
- 数据位置:https://huggingface.co/datasets/0v01111/StatEval-Statistical-Research
- 评估类别:
- 渐近性质
- 收敛性与稳定性
- 分布性质
- 泛化与误差界
- 可识别性与一致性
- 最优性结果
- 结构保证
- 检验有效性
数据处理流程
核心处理步骤
- 文件转换:将PDF、扫描文件和LaTeX源文件转换为结构化文本
- 上下文分割:提取定理和相关上下文
- 问题生成:将定理和上下文转换为问答对
- 质量控制:自动化验证符合规则和一致性
- 人工检查与反馈:专家验证语义正确性、难度和数据集分类
评估方法
评估步骤
- 推理步骤提取:识别关键推理步骤
- 结果提取:分析每个推理步骤的定量或符号结果
- LLM评判:比较推理步骤和结果与参考解决方案
- 评分:沿三个维度分配二元分数:推理准确性、步骤完整性和最终答案正确性
评分机制
- 权重分配:推理准确性(α=0.4)、步骤完整性(β=0.3)、最终答案正确性(剩余权重)
- 评分重复三次,最终分数取三次通过的最小值
评估结果
基础知识数据集表现
- 最佳开源模型:GPT-OSS-120B(总体平均分80.27)
- 最佳闭源模型:GPT-5(总体平均分82.85)
统计研究数据集表现
- 最佳开源模型:GPT-oss-120B(总体平均分49.49)
- 最佳闭源模型:GPT5-mini(总体平均分57.62)
相关资源
- 论文:已在代码库中上传
- 网站:https://stateval.github.io/
- 代码:即将发布
搜集汇总
数据集介绍

构建方式
在统计学作为数据科学核心学科的背景下,StatEval通过多智能体流水线构建了首个全面统计推理基准。该流程整合文件转换、上下文分割、问题生成与质量控制四个关键环节,利用多模态模型将教材与期刊论文转换为标准化文本,通过动态正则表达式框架提取定理与引理,并基于严谨的生成准则重构为自包含的问答对。人机协同验证机制通过专家反馈持续优化生成质量,实现了从学术文献到可验证评估数据的自动化转换。
特点
作为覆盖统计学全领域的能力评估基准,StatEval展现出双重维度特征。其难度轴包含13,817个基础知识问题与2,374个研究级证明任务,覆盖从本科到博士课程及顶级期刊的完整谱系。学科轴则通过两级分类体系囊括概率论、统计推断、回归分析等30余个子领域,形成细粒度评估网格。数据集特别强调理论推导与形式化证明能力,研究级任务全部源自近五年顶级期刊的定理证明,通过定量可验证的答案设计确保评估客观性。
使用方法
针对不同任务类型,StatEval设计了差异化评估框架。选择题采用精确答案匹配机制,开放式问题则通过四阶段流程评估:首先解析模型回复中的推理步骤与中间结果,再由专用评估模型比对参考解的逻辑结构与定量结果,最终基于推理准确性、步骤完整性与最终答案正确性三个维度进行加权评分。该框架支持对统计推理能力的细粒度分析,通过三次独立评估取最低分的保守策略确保结果可靠性,为模型在统计领域的能力诊断提供系统化工具。
背景与挑战
背景概述
随着大语言模型在数学与逻辑推理领域取得显著进展,统计学作为一门融合概率论、推断理论与数据建模的独立学科,其评估体系仍存在空白。2025年,上海财经大学与北卡罗来纳大学教堂山分校的研究团队联合推出StatEval——首个专注于统计学领域的综合性基准数据集。该数据集涵盖13,817个基础课程问题与2,374个研究级证明任务,通过多智能体流水线实现从学术文献到标准化问题的自动化转换,旨在系统评估大语言模型在统计推断、贝叶斯分析及渐近理论等核心领域的推理能力,为统计学人工智能的发展提供 rigorous 的评估框架。
当前挑战
StatEval需应对统计学特有的双重挑战:在领域问题层面,模型需处理不确定性推理、多步骤证明推导及复杂理论性质验证,现有模型在概率论与线性模型等基础领域表现薄弱,研究级任务中顶尖模型准确率不足57%;在构建过程中,需克服学术文献异构格式解析、定理上下文依赖建模、证明任务定量化验证等难题,通过动态正则表达式分割与人类专家反馈循环确保学术严谨性与规模扩展性的平衡。
常用场景
经典使用场景
在统计学教育领域,StatEval数据集为评估大型语言模型在统计推理能力方面提供了系统化基准。该数据集通过涵盖从本科基础课程到前沿研究论文的完整知识谱系,能够全面检验模型对概率理论、统计推断、回归分析等核心概念的理解深度。其经典应用体现在对模型统计思维能力的层次化评估,包括基础概念掌握、计算问题求解以及复杂定理证明等多个维度。
解决学术问题
StatEval有效解决了当前大型语言模型评估中统计学领域覆盖不足的学术难题。传统推理基准中统计问题占比不足3%,且多为孤立概率谜题,缺乏对推断性推理的系统性考察。该数据集通过构建包含13,817个基础问题和2,374个研究级证明任务的双层结构,填补了统计推理评估的空白,为研究模型在不确定性推理、渐近理论和贝叶斯分析等核心统计能力上的表现提供了标准化测试平台。
衍生相关工作
基于StatEval的评估框架,学界衍生出多项重要研究工作。其多智能体数据处理管道为科学文献的自动化问题提取设立了新标准,启发了后续在数学、物理等领域的类似基准构建。该数据集提出的过程评分机制推动了统计推理评估范式的革新,促使研究者开发更精细的推理链分析工具。此外,其在研究级证明任务上的设计理念为后续TheoremQA、RealMath等理论推理基准提供了重要参考。
以上内容由遇见数据集搜集并总结生成



