five

haoranli-ml/genvf-filtered-proof-graded-test

收藏
Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/haoranli-ml/genvf-filtered-proof-graded-test
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: index dtype: int64 - name: row_id dtype: int64 - name: problem dtype: string - name: answer dtype: string - name: source list: string - name: mean_reward dtype: float64 - name: full_response dtype: string - name: full_reasoning dtype: string - name: model dtype: string - name: prefix dtype: string - name: prefix_end_index dtype: int64 - name: num_thoughts dtype: int64 - name: prefix_type dtype: string - name: prefix_type_description dtype: string - name: suffix_num list: int64 - name: suffix_model list: string - name: pending list: bool - name: pending_model list: 'null' - name: suffix_response list: string - name: suffix_summary list: string - name: self_summary list: string - name: suffix_reasoning list: string - name: finish_reason list: string - name: budget_used list: int64 - name: escalation list: int64 - name: usage list: - name: completion_tokens dtype: int64 - name: prompt_tokens dtype: int64 - name: total_tokens dtype: int64 - name: error list: 'null' - name: error_type list: 'null' - name: prefix_model dtype: string - name: gemini_summary_of_future dtype: string - name: gemini_summary_list list: string - name: prefix_steps list: string - name: suffix_variants list: - name: detailed_steps list: string - name: high_level_steps list: string - name: id dtype: int64 - name: dedup_note dtype: string - name: cross_prefix_alignment_scores list: - name: avg_alignment dtype: float64 - name: individual_scores list: - name: compared_row_id dtype: int64 - name: compared_summary_id dtype: int64 - name: direction dtype: string - name: output_text dtype: string - name: problem_index dtype: int64 - name: reasoning dtype: string - name: score dtype: float64 - name: num_comparisons dtype: int64 - name: summary_id dtype: int64 - name: filtered_suffix list: - name: detailed_steps list: string - name: high_level_steps list: string - name: id dtype: int64 - name: rubrics dtype: string - name: prefix_summary_steps dtype: string - name: filtered_suffix_summary_steps list: string - name: input_to_VF dtype: string - name: proof_scores list: - name: points dtype: int64 - name: suffix_id dtype: int64 - name: proof_details list: - name: assessment dtype: string - name: errors dtype: string - name: suffix_id dtype: int64 splits: - name: test num_bytes: 13965656 num_examples: 43 download_size: 5672239 dataset_size: 13965656 configs: - config_name: default data_files: - split: test path: data/test-* ---

数据集信息: 特征字段: - 名称:index,数据类型:int64 - 名称:row_id,数据类型:int64 - 名称:problem,数据类型:字符串 - 名称:answer,数据类型:字符串 - 名称:source,数据类型:列表(字符串) - 名称:mean_reward,数据类型:64位浮点数 - 名称:full_response,数据类型:字符串 - 名称:full_reasoning,数据类型:字符串 - 名称:model,数据类型:字符串 - 名称:prefix,数据类型:字符串 - 名称:prefix_end_index,数据类型:int64 - 名称:num_thoughts,数据类型:int64 - 名称:prefix_type,数据类型:字符串 - 名称:prefix_type_description,数据类型:字符串 - 名称:suffix_num,数据类型:列表(int64) - 名称:suffix_model,数据类型:列表(字符串) - 名称:pending,数据类型:列表(布尔值) - 名称:pending_model,数据类型:列表(空值) - 名称:suffix_response,数据类型:列表(字符串) - 名称:suffix_summary,数据类型:列表(字符串) - 名称:self_summary,数据类型:列表(字符串) - 名称:suffix_reasoning,数据类型:列表(字符串) - 名称:finish_reason,数据类型:列表(字符串) - 名称:budget_used,数据类型:列表(int64) - 名称:escalation,数据类型:列表(int64) - 名称:usage,数据类型: - 名称:completion_tokens,数据类型:int64 - 名称:prompt_tokens,数据类型:int64 - 名称:total_tokens,数据类型:int64 - 名称:error,数据类型:列表(空值) - 名称:error_type,数据类型:列表(空值) - 名称:prefix_model,数据类型:字符串 - 名称:gemini_summary_of_future,数据类型:字符串 - 名称:gemini_summary_list,数据类型:列表(字符串) - 名称:prefix_steps,数据类型:列表(字符串) - 名称:suffix_variants,数据类型: - 名称:detailed_steps,数据类型:列表(字符串) - 名称:high_level_steps,数据类型:列表(字符串) - 名称:id,数据类型:int64 - 名称:dedup_note,数据类型:字符串 - 名称:cross_prefix_alignment_scores,数据类型: - 名称:avg_alignment,数据类型:64位浮点数 - 名称:individual_scores,数据类型: - 名称:compared_row_id,数据类型:int64 - 名称:compared_summary_id,数据类型:int64 - 名称:direction,数据类型:字符串 - 名称:output_text,数据类型:字符串 - 名称:problem_index,数据类型:int64 - 名称:reasoning,数据类型:字符串 - 名称:score,数据类型:64位浮点数 - 名称:num_comparisons,数据类型:int64 - 名称:summary_id,数据类型:int64 - 名称:filtered_suffix,数据类型: - 名称:detailed_steps,数据类型:列表(字符串) - 名称:high_level_steps,数据类型:列表(字符串) - 名称:id,数据类型:int64 - 名称:rubrics,数据类型:字符串 - 名称:prefix_summary_steps,数据类型:字符串 - 名称:filtered_suffix_summary_steps,数据类型:列表(字符串) - 名称:input_to_VF,数据类型:字符串 - 名称:proof_scores,数据类型: - 名称:points,数据类型:int64 - 名称:suffix_id,数据类型:int64 - 名称:proof_details,数据类型: - 名称:assessment,数据类型:字符串 - 名称:errors,数据类型:字符串 - 名称:suffix_id,数据类型:int64 数据集划分: - 名称:测试集,字节数:13965656,示例数量:43 下载大小:5672239 数据集总大小:13965656 配置项: - 配置名称:default,数据文件: - 划分:test,路径:data/test-*
提供机构:
haoranli-ml
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集构建于先进的数学推理框架之中,旨在评估与优化大型语言模型在复杂证明生成任务上的表现。其构建过程起始于从多源数据中收集包含数学问题和对应答案的原始样本,随后利用多个模型生成多样化的推理路径与回答,并通过精细化的奖励机制(mean_reward)进行初步筛选。为了深入剖析模型推理行为,数据集引入了“前缀-后缀”结构,将每个推理过程拆解为前缀(已有推理步骤)和后缀(待生成步骤),并系统性地收集了不同截断点下的模型响应、推理链及自我总结。在此基础上,进一步实施了交叉前缀对齐评分(cross_prefix_alignment_scores),基于不同前缀下的后缀一致性对样本进行质量评估,并依据证明评分(proof_scores)与细节(proof_details)构建过滤后的高质量子集(filtered_suffix),最终形成兼具深度与严谨性的测试集合。
特点
该数据集最突出的特色在于其多维度的推理轨迹记录与结构化评估体系。每个样本不仅包含原始问题与标准答案,还完整保留了由多个模型产出的全响应(full_response)与全推理链(full_reasoning),并细分为前缀与后缀片段,使得对推理过程的局部与全局分析成为可能。尤为独特的是,它引入了跨前缀对齐机制,通过对比不同起始步骤下后缀的语义一致性来衡量推理的稳健性。此外,数据集提供了细致的证明评分与错误诊断(proof_details),并附有基于评分机制的过滤后缀版本,显著提升了数据在评价模型推理鲁棒性与步骤级错误定位研究中的效用。这种从原始生成到多层级质量筛选的流水线,为深入理解模型证明行为的动态演化提供了不可多得的资源。
使用方法
研究者可直接利用该数据集的测试集(test split)开展多项进阶分析。对于渴望评估模型跨步骤推理稳定性的工作,可利用cross_prefix_alignment_scores字段中的对齐分数,对比不同前缀下模型对相同后续问题的生成一致性。若需进行细粒度证明质量评价,可结合proof_scores与proof_details字段,精确量化模型在每一步骤的逻辑严谨性与常见错误模式。对于训练与微调场景,filtered_suffix字段提供了经过高质量筛选的后缀变体,可作为优质训练样本或评估正例。此外,数据集丰富的结构字段(如推理步骤分解、模型来源、令牌使用量等)支持多种自定义的评估策略,例如比较不同后缀生成模型间的性能差异,或分析前缀长度对推理质量的影响,从而全面探究大型语言模型在数学推理任务中的能力边界。
背景与挑战
背景概述
该数据集名为genvf-filtered-proof-graded-test,创建于大型语言模型推理能力评估领域迅速发展的时期,由从事神经符号推理与验证的研究机构构建。核心研究问题聚焦于如何通过形式化验证与分级评分机制,系统性地评估模型在复杂数学证明任务中的表现。数据集包含从多个源抽取的数学问题、模型生成的推理链条、多维度评分以及基于规则和概率的过滤后后缀等丰富特征,为细粒度分析模型的证明能力提供了标准化基准。其影响力体现在为验证模型推理的可靠性、一致性与错误模式开辟了新的评估路径,有望推动语言模型在严谨学术推理任务中的应用边界。
当前挑战
该数据集所解决的领域问题挑战在于,现有基准往往依赖答案匹配或人工评价,难以准确衡量模型在多步数学证明中的真实推理质量,尤其是对中间步骤的正确性、逻辑连贯性及错误定位的自动化评估。构建过程中面临的挑战包括:如何设计统一的评分准则以对齐人类专家判断,如何从海量生成回复中高效过滤低质量或冗余推理链,以及如何确保跨模型、跨问题的对齐分数具有可比性和可解释性。此外,数据集的规模偏小(仅43个测试样例)也限制了其统计效力与泛化能力的验证,未来需要拓展覆盖更广泛的数学领域与推理复杂度层级。
常用场景
经典使用场景
在数学推理与自动定理证明领域,该数据集为评估和训练生成式验证器(Generative Verifier)提供了高质量的测试基准。其经典使用场景是通过将形式化证明过程分解为前缀与后缀结构,对模型生成步骤的准确性进行细粒度评分,尤其聚焦于证明步骤间的逻辑对齐与错误检测。研究者通常利用该数据集中的proof_scores与proof_details字段,结合交叉前缀对齐分数(cross_prefix_alignment_scores),训练模型识别证明路径中的缺陷,并验证修正后缀的有效性,从而推动形式化数学验证的自动化进程。
解决学术问题
该数据集有效回应了生成式数学推理中验证环节的长期挑战:如何精确量化推理步骤的正确性并定位错误根源。通过提供包含奖励分数、详细评估及对齐评分的结构化数据,它使研究者能够系统性地攻克证明级任务的评估不一致性问题,尤其是前缀信息对后续推理的引导效果分析。这一贡献强化了自监督学习在数学验证中的应用基础,为构建更可靠的定理证明助手提供了实证支撑,显著提升了自动化推理系统在学术基准上的透明度和可解释性。
衍生相关工作
该数据集衍生出一系列专注于生成式验证器设计与证明级对齐度量的经典工作。后续研究利用其前缀-后缀分解范式,开创了步骤级奖励建模(Step-level Reward Modeling)方法,并发展出基于交叉对齐分数的无监督错误定位技术。部分工作将其与过程监督(Process Supervision)策略结合,提出在复杂数学推理中动态修正推导路径的新型框架。这些衍生探索共同推动了形式化验证从全句判别向精细步骤预判的范式迁移,丰富了可靠性优先的数学AI研究生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作