five

edge-llm-bench

收藏
Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://huggingface.co/datasets/krisdcosta/edge-llm-bench
下载链接
链接失效反馈
官方服务:
资源简介:
Edge LLM Bench 是一个专注于边缘设备上 GGUF 量化性能评估的数据集,包含对 Llama 3.2 3B Instruct 模型的 7 种 GGUF K-quant 量化变体(Q2_K 至 Q8_0)在三种硬件平台上的基准测试结果。数据集共包含 4,405 条记录,分为 5 个子集:1) pixel_inference(2,875 行)- Google Pixel 6a(ARM Cortex-X1)上的推理性能数据;2) m4_inference(1,026 行)- Apple M4 Mac 上的 Metal GPU 和 CPU 推理数据;3) x86_inference(392 行)- Intel Core i5-1235U(x86)上的性能数据;4) quality_benchmarks(105 行)- 6 个 NLP 基准测试的准确率结果;5) perplexity(7 行)- WikiText-2 困惑度评分。数据集记录了包括解码吞吐量、预填充吞吐量、首token延迟等关键指标,并提供了详细的实验条件和方法说明。适用于边缘AI、模型量化、LLM推理优化等研究领域。
创建时间:
2026-04-07
搜集汇总
数据集介绍
main_image_url
构建方式
在边缘计算与轻量化大模型部署的背景下,Edge LLM Bench数据集通过严谨的实验设计构建而成。研究团队在Google Pixel 6a、Apple M4 Mac和x86平台三种异构硬件上,系统性地部署了Llama 3.2 3B与Qwen 2.5 1.5B模型的七种GGUF K-量化变体。数据采集过程严格遵循控制变量原则,在恒定热管理条件下执行非预热推理任务,涵盖上下文长度扫描、线程数调节及KV缓存量化等多种实验类型,最终汇集了四千余条高质量推理记录。
特点
该数据集的核心特征在于其揭示了量化模型在边缘设备上的非单调性能规律。不同于传统GPU环境的线性假设,在ARM架构移动设备上,低比特量化变体可能展现出超越高比特版本的推理速度。数据集精准刻画了KV缓存崩溃的临界阈值,并量化了不同量化策略在多项自然语言理解基准任务上的精度表现。其跨平台一致性验证了硬件后端对性能排序的颠覆性影响,为边缘侧模型优化提供了关键经验证据。
使用方法
研究者可通过Hugging Face Datasets库便捷加载数据集的五个独立子集,分别对应不同硬件平台的推理性能指标、模型质量评估结果及困惑度分数。利用Pandas等数据分析工具,可深入探究量化变体在不同上下文长度下的吞吐量变化规律,或对比不同硬件后端的速度-精度权衡关系。该数据集为边缘设备上的模型量化选型、推理引擎优化及能效评估提供了标准化的基准参考。
背景与挑战
背景概述
Edge LLM Bench 数据集由 Kris Dcosta 于 2026 年创建,旨在系统评估 GGUF K-量化变体在边缘设备上的推理性能与质量。该数据集聚焦于移动计算与边缘人工智能领域,核心研究问题在于揭示不同量化策略在异构硬件平台(如 ARM 架构的移动设备与 x86 架构的桌面系统)上的非单调性表现,特别是针对 KV 缓存崩溃现象与计算吞吐量的复杂关系。通过涵盖 Google Pixel 6a、Apple M4 Mac 及 Intel Core i5 平台,该数据集为轻量化大语言模型在资源受限环境中的部署提供了关键实证基准,推动了边缘设备上高效推理算法的优化与标准化。
当前挑战
该数据集致力于解决边缘设备上大语言模型高效部署的领域挑战,具体包括量化模型在有限内存与算力下的速度-精度权衡,以及跨硬件平台的性能一致性难题。在构建过程中,研究团队面临多重挑战:需在严格控制热条件与试验流程下收集大规模推理记录,以消除测量噪声;同时,需设计实验以捕捉 KV 缓存崩溃的阈值行为,这要求精确操控上下文长度并处理设备特有的性能波动。此外,确保不同量化变体与模型在多样硬件后端上的可比性,也增加了数据采集与验证的复杂性。
常用场景
经典使用场景
在边缘计算与移动人工智能领域,Edge LLM Bench数据集为量化模型在资源受限设备上的性能评估提供了标准化基准。该数据集最经典的使用场景是系统性地对比不同GGUF K-量化变体在异构硬件平台上的推理效率与质量权衡。研究人员通过分析数据集中的解码吞吐量、预填充速度及上下文长度敏感性等指标,能够精确刻画量化模型在移动ARM架构与x86平台上的动态行为特征,为边缘设备上的大语言模型部署提供实证依据。
衍生相关工作
基于该数据集衍生的经典研究工作主要集中在三个方向。量化算法优化方面,研究者利用非单调性发现改进了超级块量化策略,提出了面向边缘设备的自适应比特分配方法。系统架构设计领域,KV缓存崩溃机制的分析催生了新型缓存管理算法,有效缓解了长上下文场景下的性能衰减。工具链开发层面,数据集的基准测试方法被集成到llama.cpp等开源框架中,形成了标准化的边缘推理评估流程。这些衍生工作共同推动了边缘人工智能生态系统的发展。
数据集最近研究
最新研究方向
在边缘计算与移动AI领域,随着大语言模型(LLM)向轻量化部署的演进,量化技术成为平衡模型性能与资源约束的核心手段。Edge LLM Bench数据集聚焦于GGUF量化变体在边缘设备上的推理基准测试,揭示了前沿研究中的非单调性现象:低比特量化如Q2_K在ARM架构上展现出超越高比特变体的吞吐量,颠覆了传统GPU驱动的性能假设。该数据集系统性地刻画了KV缓存崩溃阈值在不同硬件平台上的差异,并验证了超级块K量化结构在精度分配上的有效性,为边缘设备上的模型优化提供了关键实证依据。相关研究正深入探索量化变体在能效、热管理及跨平台一致性方面的表现,推动着轻量级LLM在移动与嵌入式场景中的实用化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作