ppb-results

Hugging Face2026-03-10 更新2026-03-11 收录

下载链接：

https://huggingface.co/datasets/paulplee/ppb-results

下载链接

链接失效反馈

官方服务：

资源简介：

Poor Paul's Benchmark (PPB) 是一个用于在消费级、专业级和小型企业硬件上进行本地AI推理的开源基准测试框架。该数据集包含社区提交的跨模型、量化、硬件、运行时和基准测试设置的标准化基准测试结果。每一行代表一个基准测试结果，旨在用于开放基准测试、可重复性和下游分析。常见用例包括比较硬件间的推理吞吐量、研究上下文长度扩展、比较延迟指标（如TTFT和ITL）以及支持仪表板和派生排行榜。数据集结构为每行对应一个标准化基准测试结果，字段按重要性排列，包括模型和基准测试身份、硬件、基准测试设置、性能指标、系统元数据和提交及来源字段。数据集目前使用单一分割（train）。数据来源为用户在本地硬件上执行的PPB运行，经过标准化处理后上传。使用该数据时需注意其作为追加式原始提交日志的局限性，包括结果来自异构系统、可能受热力学和驱动程序等因素影响、某些指标仅适用于特定运行器类型等。

创建时间：

2026-03-09

原始信息汇总

数据集概述：Poor Pauls Benchmark Results

数据集简介

Poor Pauls Benchmark (PPB) 是一个用于在消费级、专业消费级和小型企业硬件上进行本地AI推理的开源基准测试框架。本数据集包含社区提交的、经过标准化的基准测试结果，涵盖模型、量化、硬件、运行时和基准测试设置。每一行代表一个基准测试结果，旨在用于开放的基准测试、可重复性研究以及下游分析。

数据集结构

数据集采用扁平化的表格结构，每一行对应一个标准化的基准测试结果。字段分组如下：

模型与基准测试标识：model、model_base、quant、runner_type
硬件信息：gpu_name、gpu_vram_gb、gpu_driver、backends、cpu_model
基准测试设置：n_ctx、n_batch、concurrent_users
性能指标：throughput_tok_s、avg_ttft_ms、p50_ttft_ms、p99_ttft_ms、avg_itl_ms、p50_itl_ms、p99_itl_ms
系统元数据：os_system、os_release、os_machine、cpu_cores、ram_total_gb
提交与溯源信息：submitter、timestamp、submitted_at、schema_version、benchmark_version、submission_id、row_id、machine_fingerprint、run_fingerprint、result_fingerprint、source_file_sha256

部分字段是特定于运行器的，因此可能存在null值。

数据创建

源数据来自用户在其本地硬件上执行的PPB运行。在上传前，原始基准测试输出被标准化为扁平化的表格模式，以便在Hugging Face上预览，并方便pandas、DuckDB、电子表格和下游仪表板使用。

使用注意事项

本数据集是一个仅追加的原始提交账本，而非最终经过筛选的排行榜。

重要限制包括：

结果来自异构的真实世界系统。
散热、驱动程序、后台负载和本地调优可能影响结果。
部分指标仅适用于特定的运行器类型。
按设计可能存在重复和重复提交。
不包含成本相关指标。

对于下游分析：

使用result_fingerprint识别完全重复的行。
使用run_fingerprint对相同基准测试标识的重复运行进行分组。
使用machine_fingerprint对来自同一匿名机器的结果进行分组。

附加信息

许可证：MIT
项目仓库：https://github.com/paulplee/poor-pauls-benchmark
数据集仓库：https://huggingface.co/datasets/paulplee/ppb-results
标签：benchmarking, llama-cpp, llm-inference, local-llm, homelab, open-data, tabular

搜集汇总

数据集介绍

构建方式

在本地人工智能推理性能评估领域，Poor Paul's Benchmark Results数据集通过社区驱动的开放框架构建而成。其数据源自用户在个人或小型企业硬件上独立执行的基准测试运行，随后将原始输出规范化处理为扁平化的表格结构。这一过程确保了数据能够适配多种分析工具，同时保留了结果的原始性与可追溯性，为异构环境下的性能比较提供了可靠基础。

使用方法

使用者可借助该数据集进行推理吞吐量跨硬件比较、上下文长度缩放研究以及各类延迟指标分析。在具体应用中，可通过`result_fingerprint`字段识别完全重复的记录，利用`run_fingerprint`对同一基准测试的多次运行进行分组，或依据`machine_fingerprint`聚合来自同一匿名硬件的结果。这些设计支持用户构建定制化仪表板或衍生排行榜，推动本地人工智能推理生态的透明化与性能优化。

背景与挑战

背景概述

随着本地人工智能推理在消费级、专业级及小型企业硬件上的普及，对标准化、可复现的性能评估框架的需求日益凸显。Poor Paul's Benchmark Results数据集由Paul P. Lee等人于开源社区中发起，旨在构建一个开放的基准测试框架，以收集并规范化社区提交的模型推理性能数据。该数据集聚焦于量化模型在不同硬件配置下的吞吐量、首令牌延迟及令牌间延迟等关键指标，为研究者和开发者提供了跨平台性能比较的实证基础，推动了本地大语言模型部署的透明化与优化进程。

当前挑战

该数据集致力于解决本地大语言模型推理性能评估中的标准化难题，其挑战在于如何统一异构硬件环境、多样化量化策略及不同基准测试工具所产生的性能数据，以支持公平、可复现的比较分析。在构建过程中，数据集面临数据来源的异质性挑战，包括硬件驱动、系统负载、散热条件等变量对性能结果的影响；同时，需设计有效的指纹机制以识别重复提交或同一机器的多次运行，并处理运行器特定字段的空值问题，确保数据结构的完整性与分析可靠性。

常用场景

经典使用场景

在本地人工智能推理领域，Poor Paul's Benchmark Results数据集为研究者和开发者提供了一个标准化的性能评估平台。该数据集最经典的使用场景在于跨硬件、模型和量化配置的系统性基准测试，用户能够通过分析吞吐量、首令牌延迟和令牌间延迟等关键指标，深入比较不同消费级、专业级和小型企业硬件上的推理效率，从而为模型部署和硬件选型提供实证依据。

解决学术问题

该数据集有效解决了本地AI推理中缺乏公开、可复现性能数据的学术研究问题。通过汇集社区提交的标准化基准结果，它支持对上下文长度扩展性、硬件异构性影响以及运行时优化效果的量化研究，促进了开源基准测试的透明性和可比较性，为边缘计算和资源受限环境下的模型效率优化提供了关键数据支撑。

实际应用

在实际应用层面，Poor Paul's Benchmark Results数据集直接赋能于性能监控与决策支持系统。例如，开发者可依据其数据构建实时仪表盘和衍生排行榜，如poorpaul.dev，以可视化方式展示不同配置下的推理性能，辅助硬件采购、模型量化策略制定以及云边协同部署方案的优化，从而降低实际部署中的试错成本并提升资源利用率。

数据集最近研究