edge-llm-bench

Hugging Face2026-04-11 更新2026-04-12 收录

下载链接：

https://huggingface.co/datasets/krisdcosta/edge-llm-bench

下载链接

链接失效反馈

官方服务：

资源简介：

Edge LLM Bench 是一个专注于边缘设备上 GGUF 量化性能评估的数据集，包含对 Llama 3.2 3B Instruct 模型的 7 种 GGUF K-quant 量化变体（Q2_K 至 Q8_0）在三种硬件平台上的基准测试结果。数据集共包含 4,405 条记录，分为 5 个子集：1) pixel_inference（2,875 行）- Google Pixel 6a（ARM Cortex-X1）上的推理性能数据；2) m4_inference（1,026 行）- Apple M4 Mac 上的 Metal GPU 和 CPU 推理数据；3) x86_inference（392 行）- Intel Core i5-1235U（x86）上的性能数据；4) quality_benchmarks（105 行）- 6 个 NLP 基准测试的准确率结果；5) perplexity（7 行）- WikiText-2 困惑度评分。数据集记录了包括解码吞吐量、预填充吞吐量、首token延迟等关键指标，并提供了详细的实验条件和方法说明。适用于边缘AI、模型量化、LLM推理优化等研究领域。

创建时间：

2026-04-07

搜集汇总

数据集介绍

构建方式

在边缘计算与轻量化大模型部署的背景下，Edge LLM Bench数据集通过严谨的实验设计构建而成。研究团队在Google Pixel 6a、Apple M4 Mac和x86平台三种异构硬件上，系统性地部署了Llama 3.2 3B与Qwen 2.5 1.5B模型的七种GGUF K-量化变体。数据采集过程严格遵循控制变量原则，在恒定热管理条件下执行非预热推理任务，涵盖上下文长度扫描、线程数调节及KV缓存量化等多种实验类型，最终汇集了四千余条高质量推理记录。

特点

该数据集的核心特征在于其揭示了量化模型在边缘设备上的非单调性能规律。不同于传统GPU环境的线性假设，在ARM架构移动设备上，低比特量化变体可能展现出超越高比特版本的推理速度。数据集精准刻画了KV缓存崩溃的临界阈值，并量化了不同量化策略在多项自然语言理解基准任务上的精度表现。其跨平台一致性验证了硬件后端对性能排序的颠覆性影响，为边缘侧模型优化提供了关键经验证据。

使用方法

研究者可通过Hugging Face Datasets库便捷加载数据集的五个独立子集，分别对应不同硬件平台的推理性能指标、模型质量评估结果及困惑度分数。利用Pandas等数据分析工具，可深入探究量化变体在不同上下文长度下的吞吐量变化规律，或对比不同硬件后端的速度-精度权衡关系。该数据集为边缘设备上的模型量化选型、推理引擎优化及能效评估提供了标准化的基准参考。

背景与挑战

背景概述

Edge LLM Bench 数据集由 Kris Dcosta 于 2026 年创建，旨在系统评估 GGUF K-量化变体在边缘设备上的推理性能与质量。该数据集聚焦于移动计算与边缘人工智能领域，核心研究问题在于揭示不同量化策略在异构硬件平台（如 ARM 架构的移动设备与 x86 架构的桌面系统）上的非单调性表现，特别是针对 KV 缓存崩溃现象与计算吞吐量的复杂关系。通过涵盖 Google Pixel 6a、Apple M4 Mac 及 Intel Core i5 平台，该数据集为轻量化大语言模型在资源受限环境中的部署提供了关键实证基准，推动了边缘设备上高效推理算法的优化与标准化。

当前挑战

该数据集致力于解决边缘设备上大语言模型高效部署的领域挑战，具体包括量化模型在有限内存与算力下的速度-精度权衡，以及跨硬件平台的性能一致性难题。在构建过程中，研究团队面临多重挑战：需在严格控制热条件与试验流程下收集大规模推理记录，以消除测量噪声；同时，需设计实验以捕捉 KV 缓存崩溃的阈值行为，这要求精确操控上下文长度并处理设备特有的性能波动。此外，确保不同量化变体与模型在多样硬件后端上的可比性，也增加了数据采集与验证的复杂性。

常用场景

经典使用场景

在边缘计算与移动人工智能领域，Edge LLM Bench数据集为量化模型在资源受限设备上的性能评估提供了标准化基准。该数据集最经典的使用场景是系统性地对比不同GGUF K-量化变体在异构硬件平台上的推理效率与质量权衡。研究人员通过分析数据集中的解码吞吐量、预填充速度及上下文长度敏感性等指标，能够精确刻画量化模型在移动ARM架构与x86平台上的动态行为特征，为边缘设备上的大语言模型部署提供实证依据。

衍生相关工作

基于该数据集衍生的经典研究工作主要集中在三个方向。量化算法优化方面，研究者利用非单调性发现改进了超级块量化策略，提出了面向边缘设备的自适应比特分配方法。系统架构设计领域，KV缓存崩溃机制的分析催生了新型缓存管理算法，有效缓解了长上下文场景下的性能衰减。工具链开发层面，数据集的基准测试方法被集成到llama.cpp等开源框架中，形成了标准化的边缘推理评估流程。这些衍生工作共同推动了边缘人工智能生态系统的发展。

数据集最近研究