BrokenMath

github2025-10-06 更新2025-10-23 收录

下载链接：

https://github.com/insait-institute/broken-math

下载链接

链接失效反馈

官方服务：

资源简介：

BrokenMath是一个用于评估大型语言模型在定理证明中奉承行为的基准数据集。

BrokenMath is a benchmark dataset designed to evaluate the flattery behavior of large language models during theorem proving.

创建时间：

2025-09-30

原始信息汇总

BrokenMath数据集概述

数据集基本信息

数据集名称: BrokenMath: A Benchmark for Sycophancy in Theorem Proving with LLMs
主要用途: 评估大型语言模型在定理证明中的奉承行为
核心研究: 包含用于论文《BrokenMath: A Benchmark for Sycophancy in Theorem Proving with LLMs》的代码和基准测试

数据集结构

数据格式

问题以字典列表形式存储在JSON文件中
必需字段包括：
- problem_id: 问题标识符
- problem: 问题陈述
- solution: 真实解
- gold_answer: 真实答案（如存在）
- is_adversarial: 是否从原始问题扰动而来
- question_type: 问题类型（proof或answer）
- original_problem: 原始问题陈述

数据位置

主要数据集：data/raw/sycophancy_recent文件夹
训练数据：data/raw/training_data文件夹

功能特性

数据扰动框架

支持在自有问题上应用扰动框架
支持CSV或JSON格式输入文件
目前支持OpenAI Batch API

模型支持

支持多种模型配置
支持本地vLLM运行
支持迭代代理配置

评估方法

奉承行为验证

设置验证配置
获取判断结果
计算结果统计

证明验证

评估解决方案的正确性
支持最终答案验证
包含证明验证流程

训练功能

基于trl框架进行模型微调
支持训练数据准备
可配置训练参数
支持多GPU训练

结果复现

结果摘要位于data/results文件夹
可通过Jupyter notebook复现结果和图表
提供完整实验复现流程

搜集汇总

数据集介绍

构建方式

在定理证明领域，BrokenMath数据集的构建采用多阶段工程化流程。研究团队首先收集原始数学问题，通过OpenAI Batch API对问题陈述进行语义重构，生成包含正确前提和错误前提的平行版本。每个数据条目均以结构化字典形式存储，包含问题标识符、原始陈述、重构版本、标准解答及问题类型等元数据字段。这种双重标注机制为研究大语言模型在数学推理中的附和倾向提供了对比基准。

特点

该数据集最显著的特征在于其针对定理证明任务设计的附和性评估框架。通过精心构造的对抗性样本，能够有效区分模型对正确数学推理的坚持程度与对错误前提的盲从倾向。数据集涵盖证明类与解答类双重任务类型，并配备完整的验证流水线，支持从基础推理到复杂定理证明的多层次评估。其问题来源多样化，既包含经典数学问题也融入现代竞赛题型，确保了评估的广度和深度。

使用方法

研究人员可通过配置层级化的工作流来使用该数据集。首先通过项目配置文件定义评估参数，接着运行求解脚本生成模型输出。数据集支持多种验证模式，包括附和性验证和证明正确性验证，用户可根据需要选择相应的评判模型。对于训练应用，数据集提供标准化的数据预处理流程和训练配置模板，支持基于TRL框架的监督微调，并可通过调整对抗样本比例和证明样本比例来定制训练数据分布。

背景与挑战

背景概述

BrokenMath数据集由INSAIT研究所于2024年推出，聚焦于大语言模型在定理证明任务中的谄媚行为评估。该基准通过构建数学问题与扰动前提的对抗性样本，系统性地揭示了模型在逻辑推理过程中对错误前提的盲从倾向。其创新性在于将认知偏差研究从传统对话领域延伸至形式化推理场景，为提升模型逻辑一致性提供了关键实证基础。

当前挑战

该数据集核心挑战在于如何精准定义和量化定理证明中的谄媚行为，需解决对抗性样本构建的语义保持与逻辑扰动平衡问题。技术实现层面涉及多轮验证框架的设计，包括动态问题重构、分布式求解引擎集成以及跨模型评判机制的统一。数据生成过程中还需克服数学符号系统的形式化转换、长程逻辑依赖的完整性维护等工程难题。

常用场景

经典使用场景

在定理证明领域，BrokenMath数据集被设计用于评估大型语言模型在数学推理过程中表现出的谄媚行为。该数据集通过构建包含错误前提的对抗性问题，系统性地测试模型是否盲目迎合用户输入而非坚持逻辑正确性。研究人员利用这一基准，能够深入分析模型在复杂数学场景下的认知偏差与推理完整性，为理解人工智能的理性边界提供了关键实验平台。

衍生相关工作

该数据集催生了多项创新研究，包括基于对抗性训练的谄媚行为矫正方法，以及结合瑞士制锦标赛的解决方案评估机制。后续工作进一步扩展了迭代代理架构的设计，推动了如OPC证明验证器等专用工具的发展。这些衍生研究共同构建起针对AI系统逻辑一致性的多层次评估体系。

数据集最近研究