five

Nondeterministic Polynomial-time Problem Challenge (NPPC)

收藏
arXiv2025-04-15 更新2025-04-19 收录
下载链接:
https://github.com/SMU-DIGA/nppc
下载链接
链接失效反馈
官方服务:
资源简介:
NPPC是由香港理工大学等机构提出的一个推理能力评估数据集,旨在构建一个不可被攻克、不可被破解、可自动验证的通用推理基准。该数据集包含25个著名的NP完全问题,能够生成任意数量和任意难度级别的实例,以适应不断增长的复杂性。这些问题被设计为能够反映现实世界问题,并为评估大型语言模型在解决复杂推理问题方面的性能提供了一种标准化的方法。

NPPC is a reasoning ability evaluation dataset proposed by institutions including the Hong Kong Polytechnic University, which aims to construct a universal reasoning benchmark that is unbreakable, uncrackable and automatically verifiable. This dataset includes 25 well-known NP-complete problems, and is capable of generating instances of arbitrary quantity and difficulty levels to accommodate increasing complexity. These problems are designed to reflect real-world problems, and provide a standardized framework for evaluating the performance of large language models (LLMs) in solving complex reasoning tasks.
提供机构:
香港理工大学
创建时间:
2025-04-15
搜集汇总
数据集介绍
main_image_url
构建方式
NPPC数据集通过三个核心模块构建:npgym提供25种著名NP完全问题的统一接口,可生成任意复杂度的实例;npsolver支持在线和离线模型的统一评估接口;npeval提供全面的性能分析工具。该数据集采用动态难度分级机制,每个问题设置约10个难度级别,并通过多项式时间验证确保自动验证的可行性。数据生成过程采用分层抽样策略,每个难度级别使用3个随机种子生成30个实例,确保统计可靠性。
特点
NPPC具有四大核心特征:不可破解性(通过无限实例生成和动态复杂度扩展实现)、不可攻克性(问题难度可随模型进步持续提升)、自动验证性(基于NP问题的多项式时间验证特性)和普适性(覆盖25类NP完全问题)。实验表明,该数据集能将先进LLM的性能压制至10%以下,且不同模型在各类NP问题上表现出显著的能力差异,如DeepSeek-R1在多数NP问题上优于Claude-3.7-Sonnet。
使用方法
使用NPPC时,研究者可通过npgym生成指定难度的NP问题实例,利用npsolver的标准化接口评估模型性能。npeval模块提供四种聚合指标(IQM、均值、中位数和最优差距)和分层自助置信区间进行结果分析。典型工作流程包括:配置问题类型与难度级别→生成实例→模型推理→自动验证→通过错误分析和token消耗等维度评估模型表现。数据集支持在线API调用和本地部署两种模式,并兼容主流LLM推理框架。
背景与挑战
背景概述
Nondeterministic Polynomial-time Problem Challenge (NPPC) 是由香港理工大学、KTH皇家理工学院、卡内基梅隆大学等机构的研究团队于2025年提出的一个面向大语言模型(LLMs)的推理基准测试数据集。该数据集旨在解决当前基准测试存在的两个主要问题:1) 基准测试容易被快速突破(通常在一年内);2) 基准测试容易被攻击或利用。NPPC通过引入“ever-scalingness”概念,构建了一个不可突破、不可攻击、可自动验证且通用的基准测试。NPPC包含三个核心模块:npgym(提供25个NP完全问题的统一接口)、npsolver(评估问题实例的统一接口)和npeval(分析LLM性能的综合工具)。该数据集在推动大语言模型向通用人工智能(AGI)发展的过程中具有重要影响力。
当前挑战
NPPC面临的挑战主要包括两个方面:1) 领域问题的挑战:NPPC旨在解决NP完全问题,这些问题在计算复杂性理论中被认为是最难的问题之一,目前尚无多项式时间算法能够解决。因此,如何评估LLM在这些问题上的推理能力是一个重大挑战。2) 构建过程中的挑战:NPPC需要生成任意数量和复杂度的实例,确保其不可突破和不可攻击;同时,还需要设计高效的自动验证机制,确保解决方案的正确性。此外,NPPC需要覆盖广泛的NP完全问题,以保持其通用性,这对数据集的构建提出了更高的要求。
常用场景
经典使用场景
NPPC数据集作为首个可无限扩展的推理基准,专为评估大型语言模型(LLMs)在NP完全问题上的推理能力而设计。其核心应用场景包括:通过npgym模块动态生成25类NP完全问题的任意复杂度实例,利用npsolver模块对在线/离线模型进行标准化评估,并借助npeval工具包对模型性能进行多维度分析(如推理步数、顿悟时刻、错误类型等)。该数据集通过持续生成高复杂度问题实例,有效解决了传统基准因模型快速进化而迅速被‘碾压’的困境,尤其适用于测试GPT-4、Claude-3.7等前沿模型在组合优化、逻辑推理等复杂任务中的极限能力。
实际应用
在实际工业场景中,NPPC的评估框架可直接迁移至需要强推理能力的应用领域。例如在物流路径优化中,TSP问题实例生成器可测试模型在动态运输网络中的实时决策能力;在芯片设计领域,图着色问题的复杂度分级评估能验证EDA工具中AI模块的布局布线算法上限。数据集提供的自动验证机制显著降低了企业评估AI系统在NP-hard问题中实用性的门槛,其问题形式与供应链管理、金融组合优化等业务场景具有直接映射关系。
衍生相关工作
NPPC的提出催生了多个重要研究方向:基于其问题生成框架,Reasoning Gym项目开发了支持无限训练数据的算法验证器;ZebraLogic研究则聚焦于逻辑谜题的复杂度扩展理论。该数据集还启发了对混合评估方法(如MixEval)的深入研究,推动学界从静态基准向动态评估范式转变。在模型架构方面,DeepSeek-R1和o3-mini等专门优化推理能力的模型均采用NPPC作为核心训练基准,其‘顿悟时刻’分析技术已被广泛应用于解释型AI的研究中。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作