SLM-Bench

Name: SLM-Bench
Creator: FPT University, Vietnam; Aalborg University, Denmark; Technische Universität Berlin, Germany; RMIT University, Vietnam; German Research Center for Artificial Intelligence (DFKI), Germany
Published: 2025-08-21 19:56:05
License: 暂无描述

arXiv2025-08-21 更新2025-08-23 收录

下载链接：

https://anonymous.4open.science/r/slm-bench-experiments-87F6; https://slm-bench.github.io/leaderboard

下载链接

链接失效反馈

官方服务：

资源简介：

SLM-Bench是一个全面的基准测试框架，专门用于评估小型语言模型（SLM）的多个维度，包括准确率、计算效率和可持续性指标。该框架评估了15个SLM在9个自然语言处理（NLP）任务上的表现，使用了涵盖14个领域的23个数据集，并在4种硬件配置上进行评估。评估包括11个指标，涵盖正确性、计算和消耗等方面，以实现对效率权衡的全面评估。

提供机构：

FPT University, Vietnam; Aalborg University, Denmark; Technische Universität Berlin, Germany; RMIT University, Vietnam; German Research Center for Artificial Intelligence (DFKI), Germany

创建时间：

2025-08-21

搜集汇总

数据集介绍

构建方式

SLM-Bench通过系统化的数据收集流程构建，涵盖14个领域的23个数据集，总计799,594个样本。这些数据集选自自然语言处理领域的经典基准，包括常识推理、数学问题求解、文本分类等9类任务。构建过程中采用统一的数据加载器和预处理模块，确保不同格式数据集的结构一致性，并通过标准化评估协议保证数据质量与可比性。

特点

该数据集的核心特征在于其多维评估体系，同时涵盖模型正确性、计算效率与资源消耗三大维度。通过11项量化指标（如准确率、BLEU、能耗和碳排放）对15个小语言模型进行综合评估，并创新性地引入硬件配置变量（4种服务器与边缘设备配置）。其独特价值在于首次系统量化小语言模型的环境影响，提供模型性能与可持续性的平衡视角。

使用方法

使用者可通过开源基准管道加载标准化数据集，在可控硬件环境下运行模型评估。管道包含数据预处理、模型调用、后处理及评估模块，支持跨任务和跨模型的灵活测试。评估结果采用基于奖牌的排名方法，根据模型在不同指标下的表现生成综合排名。研究者可通过调整硬件配置和超参数设置，复现或扩展基准测试，以分析模型在特定场景下的效能与可持续性表现。

背景与挑战

背景概述

SLM-Bench由FPT大学、奥尔堡大学、柏林工业大学等机构的研究团队于2025年联合推出，是首个专注于评估小型语言模型在环境影响方面的综合性基准测试。该数据集针对大语言模型存在的高计算成本与碳排放问题，系统性地设计了涵盖准确性、计算效率和可持续性指标的评估体系。其通过整合14个领域的23个数据集和4种硬件配置，为资源受限环境下的模型选择提供了科学依据，推动了绿色人工智能的发展。

当前挑战

该数据集需解决自然语言处理领域模型效率与可持续性难以兼衡的核心挑战，包括如何在有限参数下保持多任务性能、量化不同硬件环境的能耗与碳排放等。构建过程中面临多维度指标标准化难题，需协调9类NLP任务与11项评估指标的兼容性，同时需克服跨硬件平台能耗数据采集的精确性挑战，以及确保15个模型在统一评估框架下的可比性与可复现性。

常用场景

经典使用场景

在自然语言处理领域，SLM-Bench作为首个专注于小语言模型综合评估的基准，广泛应用于模型性能与可持续性的多维度分析。该数据集通过整合23个跨14个领域的任务数据集，为研究者提供了标准化测试环境，特别适用于对比不同SLM在准确性、计算效率和能耗之间的权衡。

实际应用

在实际部署中，SLM-Bench指导工业界选择适应特定场景的模型，例如Phi-1.5B适用于边缘设备的低能耗需求，而Llama-3.2-1B则服务于高精度要求的应用。其硬件兼容性测试（如L4GPU与Jetson设备）为实际部署中的能效优化提供了数据支撑。

衍生相关工作

该数据集催生了多个关注模型效率与可持续性的研究方向，例如基于SLM-Bench的硬件感知优化研究、动态推理策略设计，以及绿色AI评估标准的建立。后续工作如能耗感知的蒸馏技术和低秩适配方法均以该基准的评估维度为参考框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集