s-nlp/math500-olmo-3-7b-instruct-temp0.9-samples99-logprobs
收藏Hugging Face2026-04-01 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/s-nlp/math500-olmo-3-7b-instruct-temp0.9-samples99-logprobs
下载链接
链接失效反馈官方服务:
资源简介:
---
pretty_name: OLMo-3-7B-Instruct self-consistency generations with logprobs on MATH500
dataset_type: text
task_categories:
- question-answering
language:
- en
---
# OLMo-3-7B-Instruct self-consistency generations with logprobs on MATH500
This dataset contains 99 self-consistency generations per question for the
MATH500 benchmark, produced with `allenai/OLMo-3-7B-Instruct` at temperature
`0.9`, together with token-level log probabilities for each completion.
The file is intended for post-hoc analysis, self-consistency curves, adaptive
stopping, and related aggregation methods.
## Source
- Base benchmark: `HuggingFaceH4/MATH-500`
- Model: `allenai/OLMo-3-7B-Instruct`
- Decoding: temperature sampling, `num_samples=99`, `top_p=0.8`
- Scoring: post-hoc math equivalence using `math_verify`
## Metrics
For the saved full `temp0.9_samples99` run:
- `accuracy = 0.902`
## Files
- `predictions/predictions.parquet`
- `predictions/predictions.csv`
- `metrics.json`
The parquet includes:
- `problem`
- `solution`
- `answer`
- `subject`
- `level`
- `unique_id`
- `all_completions`
- `final_answer`
- `all_logprobs`
`all_logprobs` is a nested list of token log probabilities for each sampled
completion.
## Notes
- This is a post-hoc scored artifact, not a re-generated benchmark split.
- The saved predictions are suitable for majority vote, LLMAgg, and adaptive
methods that need access to per-sample log probabilities.
提供机构:
s-nlp
搜集汇总
数据集介绍

构建方式
在数学推理领域,高质量的数据集对于评估模型性能至关重要。本数据集基于MATH500基准测试,采用allenai/OLMo-3-7B-Instruct模型进行构建,通过温度采样策略生成多样化的推理路径。具体而言,针对每个数学问题,模型以温度参数0.9和top_p值0.8的条件,独立生成了99条不同的解答序列,并同步记录了每个生成序列的令牌级对数概率。这一过程不仅模拟了模型在开放生成环境下的推理不确定性,还为后续的自我一致性分析提供了丰富的概率化数据基础。
特点
该数据集的核心特征在于其深度融合了生成多样性与概率可解释性。每条数据不仅包含模型对数学问题的多路径解答,还完整保留了每个生成令牌的对数概率,形成嵌套式的概率结构。这种设计使得数据集能够支持自我一致性曲线绘制、自适应停止策略以及基于概率聚合的后验分析方法。此外,数据集已通过math_verify工具进行数学等价性后验评分,最终准确率达到0.902,确保了生成内容在数学逻辑上的可靠性,为研究社区提供了兼具规模与深度的分析素材。
使用方法
研究者在利用该数据集时,可基于其结构化的概率数据进行多维度分析。数据集以Parquet和CSV格式提供,包含问题描述、标准解答、生成答案序列及对应的对数概率矩阵。用户可通过解析all_completions与all_logprobs字段,实施多数投票、LLMAgg等聚合算法,或探索自适应解码策略。该数据集特别适用于研究生成模型在数学推理中的不确定性量化、自我一致性优化以及概率校准等前沿课题,为算法改进提供实证基础。
背景与挑战
背景概述
在人工智能与数学推理交叉领域,大规模语言模型(LLMs)的评估与优化已成为核心研究议题。MATH500数据集作为数学问题求解的基准测试,专注于检验模型在复杂数学推理任务上的性能。该衍生数据集由AllenAI研究团队于近期构建,依托OLMo-3-7B-Instruct模型,通过温度采样生成99条自洽性答案序列,并附带逐词对数概率。其核心研究问题在于探索模型输出的不确定性量化与后验聚合方法,旨在提升数学问题求解的鲁棒性与准确性,对自动化推理与自适应决策研究具有显著推动作用。
当前挑战
数学问题求解领域长期面临模型输出一致性与可靠性的挑战,具体体现在复杂多步推理中答案的歧义性与错误传播。该数据集构建过程中,需克服高维采样空间下的计算效率问题,确保99条生成序列的多样性与质量平衡;同时,对数概率的精确记录与嵌套结构存储带来了数据处理与解析的复杂性,要求设计高效的存储格式以支持后续的自适应停止与聚合算法分析。
常用场景
经典使用场景
在数学推理领域,该数据集为研究大型语言模型的自洽性提供了关键资源。通过为每个数学问题生成99个多样化答案并附带对数概率,它支持对模型输出的稳定性与一致性进行深入分析。经典使用场景包括绘制自洽性曲线,以评估模型在不同采样数量下的性能变化,从而揭示模型在复杂数学问题上的推理可靠性。
衍生相关工作
该数据集衍生了一系列关于自洽性聚合方法的经典研究,例如LLMAgg和自适应停止算法。这些工作利用其丰富的对数概率信息,探索了如何动态调整采样策略以平衡计算成本与准确性。同时,它也为数学等价性验证工具如math_verify提供了基准测试数据,促进了跨模型数学推理能力的比较分析。
数据集最近研究
最新研究方向
在数学推理领域,大型语言模型的自洽性生成与概率校准正成为前沿探索的核心议题。该数据集通过OLMo-3-7B-Instruct模型在MATH500基准上生成多路径样本,并记录逐词对数概率,为后验聚合方法提供了精细分析基础。当前研究聚焦于自适应停止策略与多数投票机制的优化,旨在提升模型推理的可靠性与效率,同时推动概率驱动决策框架在复杂问题求解中的应用。这一方向不仅深化了对模型不确定性的量化理解,也为数学教育辅助与自动化推理系统的开发提供了关键技术支持。
以上内容由遇见数据集搜集并总结生成



