five

ppb-results

收藏
Hugging Face2026-03-10 更新2026-03-11 收录
下载链接:
https://huggingface.co/datasets/paulplee/ppb-results
下载链接
链接失效反馈
官方服务:
资源简介:
Poor Paul's Benchmark (PPB) 是一个用于在消费级、专业级和小型企业硬件上进行本地AI推理的开源基准测试框架。该数据集包含社区提交的跨模型、量化、硬件、运行时和基准测试设置的标准化基准测试结果。每一行代表一个基准测试结果,旨在用于开放基准测试、可重复性和下游分析。常见用例包括比较硬件间的推理吞吐量、研究上下文长度扩展、比较延迟指标(如TTFT和ITL)以及支持仪表板和派生排行榜。数据集结构为每行对应一个标准化基准测试结果,字段按重要性排列,包括模型和基准测试身份、硬件、基准测试设置、性能指标、系统元数据和提交及来源字段。数据集目前使用单一分割(train)。数据来源为用户在本地硬件上执行的PPB运行,经过标准化处理后上传。使用该数据时需注意其作为追加式原始提交日志的局限性,包括结果来自异构系统、可能受热力学和驱动程序等因素影响、某些指标仅适用于特定运行器类型等。
创建时间:
2026-03-09
原始信息汇总

数据集概述:Poor Pauls Benchmark Results

数据集简介

Poor Pauls Benchmark (PPB) 是一个用于在消费级、专业消费级和小型企业硬件上进行本地AI推理的开源基准测试框架。本数据集包含社区提交的、经过标准化的基准测试结果,涵盖模型、量化、硬件、运行时和基准测试设置。每一行代表一个基准测试结果,旨在用于开放的基准测试、可重复性研究以及下游分析。

数据集结构

数据集采用扁平化的表格结构,每一行对应一个标准化的基准测试结果。字段分组如下:

  • 模型与基准测试标识modelmodel_basequantrunner_type
  • 硬件信息gpu_namegpu_vram_gbgpu_driverbackendscpu_model
  • 基准测试设置n_ctxn_batchconcurrent_users
  • 性能指标throughput_tok_savg_ttft_msp50_ttft_msp99_ttft_msavg_itl_msp50_itl_msp99_itl_ms
  • 系统元数据os_systemos_releaseos_machinecpu_coresram_total_gb
  • 提交与溯源信息submittertimestampsubmitted_atschema_versionbenchmark_versionsubmission_idrow_idmachine_fingerprintrun_fingerprintresult_fingerprintsource_file_sha256

部分字段是特定于运行器的,因此可能存在null值。

数据创建

源数据来自用户在其本地硬件上执行的PPB运行。在上传前,原始基准测试输出被标准化为扁平化的表格模式,以便在Hugging Face上预览,并方便pandas、DuckDB、电子表格和下游仪表板使用。

使用注意事项

本数据集是一个仅追加的原始提交账本,而非最终经过筛选的排行榜。

重要限制包括:

  • 结果来自异构的真实世界系统。
  • 散热、驱动程序、后台负载和本地调优可能影响结果。
  • 部分指标仅适用于特定的运行器类型。
  • 按设计可能存在重复和重复提交。
  • 不包含成本相关指标。

对于下游分析:

  • 使用result_fingerprint识别完全重复的行。
  • 使用run_fingerprint对相同基准测试标识的重复运行进行分组。
  • 使用machine_fingerprint对来自同一匿名机器的结果进行分组。

附加信息

  • 许可证:MIT
  • 项目仓库:https://github.com/paulplee/poor-pauls-benchmark
  • 数据集仓库:https://huggingface.co/datasets/paulplee/ppb-results
  • 标签:benchmarking, llama-cpp, llm-inference, local-llm, homelab, open-data, tabular
搜集汇总
数据集介绍
main_image_url
构建方式
在本地人工智能推理性能评估领域,Poor Paul's Benchmark Results数据集通过社区驱动的开放框架构建而成。其数据源自用户在个人或小型企业硬件上独立执行的基准测试运行,随后将原始输出规范化处理为扁平化的表格结构。这一过程确保了数据能够适配多种分析工具,同时保留了结果的原始性与可追溯性,为异构环境下的性能比较提供了可靠基础。
使用方法
使用者可借助该数据集进行推理吞吐量跨硬件比较、上下文长度缩放研究以及各类延迟指标分析。在具体应用中,可通过`result_fingerprint`字段识别完全重复的记录,利用`run_fingerprint`对同一基准测试的多次运行进行分组,或依据`machine_fingerprint`聚合来自同一匿名硬件的结果。这些设计支持用户构建定制化仪表板或衍生排行榜,推动本地人工智能推理生态的透明化与性能优化。
背景与挑战
背景概述
随着本地人工智能推理在消费级、专业级及小型企业硬件上的普及,对标准化、可复现的性能评估框架的需求日益凸显。Poor Paul's Benchmark Results数据集由Paul P. Lee等人于开源社区中发起,旨在构建一个开放的基准测试框架,以收集并规范化社区提交的模型推理性能数据。该数据集聚焦于量化模型在不同硬件配置下的吞吐量、首令牌延迟及令牌间延迟等关键指标,为研究者和开发者提供了跨平台性能比较的实证基础,推动了本地大语言模型部署的透明化与优化进程。
当前挑战
该数据集致力于解决本地大语言模型推理性能评估中的标准化难题,其挑战在于如何统一异构硬件环境、多样化量化策略及不同基准测试工具所产生的性能数据,以支持公平、可复现的比较分析。在构建过程中,数据集面临数据来源的异质性挑战,包括硬件驱动、系统负载、散热条件等变量对性能结果的影响;同时,需设计有效的指纹机制以识别重复提交或同一机器的多次运行,并处理运行器特定字段的空值问题,确保数据结构的完整性与分析可靠性。
常用场景
经典使用场景
在本地人工智能推理领域,Poor Paul's Benchmark Results数据集为研究者和开发者提供了一个标准化的性能评估平台。该数据集最经典的使用场景在于跨硬件、模型和量化配置的系统性基准测试,用户能够通过分析吞吐量、首令牌延迟和令牌间延迟等关键指标,深入比较不同消费级、专业级和小型企业硬件上的推理效率,从而为模型部署和硬件选型提供实证依据。
解决学术问题
该数据集有效解决了本地AI推理中缺乏公开、可复现性能数据的学术研究问题。通过汇集社区提交的标准化基准结果,它支持对上下文长度扩展性、硬件异构性影响以及运行时优化效果的量化研究,促进了开源基准测试的透明性和可比较性,为边缘计算和资源受限环境下的模型效率优化提供了关键数据支撑。
实际应用
在实际应用层面,Poor Paul's Benchmark Results数据集直接赋能于性能监控与决策支持系统。例如,开发者可依据其数据构建实时仪表盘和衍生排行榜,如poorpaul.dev,以可视化方式展示不同配置下的推理性能,辅助硬件采购、模型量化策略制定以及云边协同部署方案的优化,从而降低实际部署中的试错成本并提升资源利用率。
数据集最近研究
最新研究方向
在本地人工智能推理领域,随着边缘计算和消费级硬件性能的不断提升,Poor Paul's Benchmark Results数据集正成为研究异构系统性能评估的关键资源。前沿研究聚焦于利用该数据集的大规模社区提交数据,深入分析不同量化策略、硬件配置与推理运行时之间的交互效应,以揭示模型在有限资源环境下的效率瓶颈。热点方向包括探索上下文长度扩展对吞吐量与延迟指标的影响,以及基于匿名机器指纹进行跨平台性能一致性研究,这些工作为优化轻量级模型部署提供了实证基础,推动了开源基准测试的标准化与可复现性发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作