haoranli-ml/genvf-data-generator-100prefix-v1
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/haoranli-ml/genvf-data-generator-100prefix-v1
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: index
dtype: int64
- name: row_id
dtype: int64
- name: problem
dtype: string
- name: answer
dtype: 'null'
- name: source
list: string
- name: mean_reward
dtype: float64
- name: full_response
dtype: string
- name: full_reasoning
dtype: string
- name: model
dtype: string
- name: prefix
dtype: string
- name: prefix_end_index
dtype: int64
- name: num_thoughts
dtype: int64
- name: prefix_type
dtype: string
- name: prefix_type_description
dtype: string
- name: suffix_num
list: int64
- name: suffix_model
list: string
- name: pending
list: bool
- name: pending_model
list: 'null'
- name: suffix_response
list: string
- name: suffix_summary
list: string
- name: self_summary
list: string
- name: suffix_reasoning
list: string
- name: finish_reason
list: string
- name: budget_used
list: int64
- name: escalation
list: int64
- name: usage
list:
- name: completion_tokens
dtype: int64
- name: prompt_tokens
dtype: int64
- name: total_tokens
dtype: int64
- name: error
list: 'null'
- name: error_type
list: 'null'
- name: prefix_model
dtype: string
- name: gemini_summary_of_future
dtype: string
- name: gemini_summary_list
list: string
- name: prefix_steps
list: string
- name: suffix_variants
list:
- name: detailed_steps
list: string
- name: high_level_steps
list: string
- name: id
dtype: int64
- name: dedup_note
dtype: string
- name: cross_prefix_alignment_scores
list:
- name: avg_alignment
dtype: float64
- name: individual_scores
list:
- name: compared_row_id
dtype: int64
- name: compared_summary_id
dtype: int64
- name: direction
dtype: string
- name: output_text
dtype: string
- name: problem_index
dtype: int64
- name: reasoning
dtype: string
- name: score
dtype: float64
- name: num_comparisons
dtype: int64
- name: summary_id
dtype: int64
- name: filtered_suffix
list:
- name: detailed_steps
list: string
- name: high_level_steps
list: string
- name: id
dtype: int64
- name: rubrics
dtype: string
- name: prefix_summary_steps
dtype: string
- name: filtered_suffix_summary_steps
list: string
- name: input_to_VF
dtype: string
- name: proof_scores
list:
- name: points
dtype: int64
- name: suffix_id
dtype: int64
- name: proof_details
list:
- name: assessment
dtype: string
- name: errors
dtype: string
- name: suffix_id
dtype: int64
- name: prefix_summary
dtype: string
- name: detailed_suffix_summary
list: string
- name: high_level_suffix_summary
list: string
- name: dense_suffix_summary
list: string
- name: critical_moves_indices_in_suffix
list: string
splits:
- name: train
num_bytes: 27912272
num_examples: 100
- name: test
num_bytes: 2791227
num_examples: 10
download_size: 23897453
dataset_size: 30703499
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
---
提供机构:
haoranli-ml
搜集汇总
数据集介绍

构建方式
该数据集源自大规模语言模型推理与验证流程的精细化设计,旨在捕捉模型在解决数学与逻辑问题时的完整思维链。构建过程中,首先利用先进模型生成多样化的前缀(prefix)片段,随后针对每一前缀生成多个后缀变体(suffix_variants),并引入跨前缀对齐评分机制以评估不同推理路径的一致性。数据集还整合了详细的推理步骤、自我总结与分层摘要,以及基于规则(rubrics)的评分体系,最终筛选出高质量的后缀样本。训练集包含100条样本,测试集10条,每条样本均携带丰富的元信息,如模型类型、奖励均值、思考步数等,形成了一个结构严谨、信息稠密的多维度数据集。
使用方法
使用者可通过HuggingFace Datasets库轻松加载数据,指定配置名'default'并选择train或test切分。每条样本以JSON格式存储,包含数十个字段,可用于多角度分析。推荐研究者利用'problem'与'prefix'字段作为输入,结合'suffix_response'与'suffix_reasoning'进行模型推理能力的评估与对比。'cross_prefix_alignment_scores'字段适用于一致性分析实验,而'proof_scores'与'rubrics'则可作为监督信号训练偏好对齐模型。对于细粒度推理研究,'detailed_steps'与'high_level_steps'提供了结构化的步骤分解。需注意数据已按字段类型严格定义,可直接调用Python字典索引访问,适合作为强化学习、偏好优化或思维链蒸馏等任务的训练与评测基准。
背景与挑战
背景概述
该数据集由GenVF研究团队创建于2024年,旨在探索大型语言模型在数学推理中的前缀引导生成能力与验证框架(Verification Framework)。数据集包含了100个训练样本和10个测试样本,每个样本包含问题、多个模型生成的前缀与后缀推理步骤、跨前缀对齐评分以及详细的评估指标。研究核心聚焦于如何通过前缀约束提升模型推理的准确性与一致性,为后续的自动推理验证与模型优化提供了基准资源。该数据集通过精细化的后缀变异、对齐评分和困难标签,为研究前缀类型(如关键步骤、摘要、步骤序列)对推理质量的影响奠定了基础,有望推动可解释AI与数学推理验证领域的发展。
当前挑战
该数据集所解决的领域问题在于如何有效评估与提升大型语言模型在长链数学推理中的鲁棒性与可验证性。具体挑战包括:1) 前缀引导下模型生成的多步推理中,存在逻辑断裂或虚假相关,需要构建跨前缀对齐评分机制来度量不同前缀对后续推理一致性的影响;2) 构建过程中,如何设计涵盖多种前缀类型(如关键步骤、高层步骤、详细步骤)并自动生成合理后缀变体,是数据集构建的核心技术难点;3) 需处理推理步骤间冗余与冲突,确保评估指标能反映真实推理能力,而非对特定前缀模式过拟合。
常用场景
经典使用场景
在强化学习与语言模型交叉的学术前沿,genvf-data-generator-100prefix-v1数据集为验证与引导(Verification and Guidance)范式的研究提供了关键资源。其经典使用场景聚焦于评估模型在给定部分推理轨迹(prefix)后,能否准确预测后续最优推理步骤(suffix)。研究者可利用该数据集提供的丰富注释,包括对齐分数、推理步骤变体及评估细则,系统性地训练和测试语言模型的推理延续能力,从而推动链式思考(Chain-of-Thought)技术的进步。
解决学术问题
该数据集的核心价值在于直面大语言模型推理过程中的核心挑战——不确定性与分支选择问题。通过记录多模型、多路径的推理轨迹及其质量评分,它解决了如何客观量化模型局部推理正确性的难题。学术研究借助这一数据集得以深入探究前缀长度、推理步数对最终答案质量的影响,以及不同模型在推理路径上的风格差异。这些探索为构建更稳健的验证器网络(Verifier Network)提供了实证基础,显著提升了模型在复杂数学与逻辑任务上的推理可信度。
实际应用
在实际工程应用中,genvf-data-generator-100prefix-v1数据集为开发高效推理辅助工具铺平了道路。它可直接用于训练实时推理监控系统,通过分析模型已生成的推理步骤(prefix)预判是否偏离正确方向,并在必要时触发干预机制。此外,该数据集支撑了教育智能辅导系统的构建,能够针对学生的解题过程(类比于prefix)提供个性化提示与纠错建议,在自动化编程辅助、数学解题指导等领域展现出广阔的应用前景。
数据集最近研究
最新研究方向
该数据集聚焦于提升大型语言模型在复杂数学推理任务中的表现,通过引入前缀引导机制和多模型交叉验证策略,探索模型在给定部分推理路径后如何生成高质量后续推理步骤。其创新性地设计了细粒度的对齐评分体系与多样化的后缀变体,旨在研究模型在推理过程中的一致性、鲁棒性与可扩展性。当前前沿方向包括基于此数据集的推理链优化、跨模型推理能力迁移以及通过强化学习与偏好对齐技术增强模型在数学证明与逻辑推导中的准确性,这对推动数学AI助手和自动化定理证明系统的发展具有重要价值。
以上内容由遇见数据集搜集并总结生成



