five

ML.ENERGY Benchmark|人工智能数据集|能耗优化数据集

收藏
arXiv2025-05-10 更新2025-05-14 收录
人工智能
能耗优化
下载链接:
https://github.com/ml-energy/leaderboard
下载链接
链接失效反馈
资源简介:
ML.ENERGY Benchmark是一个用于测量生成式AI模型在真实服务环境中的推理能耗的工具和数据集。该数据集由密歇根大学的研究团队创建,旨在帮助理解和优化生成式AI服务的能耗。数据集包含了40种广泛使用的模型架构在6个不同任务中的能耗测量结果,并提供了自动化优化建议,可以在不改变模型计算内容的情况下实现显著的能耗节约。该数据集是开源的,可以轻松扩展到各种定制模型和应用场景。
提供机构:
密歇根大学
创建时间:
2025-05-10
AI搜集汇总
数据集介绍
main_image_url
构建方式
ML.ENERGY Benchmark的构建基于现实生成式AI服务部署环境,采用生产级软硬件配置(如NVIDIA H100 GPU与vLLM推理框架),通过模拟高负载服务场景下的稳态能耗进行测量。其核心创新在于设计了服务感知的能耗核算方法:针对扩散模型采用全批次能耗均摊策略(Energy_request=Energy_batch/B),而对LLM文本生成则通过稳态期令牌能耗均摊(Energy_request=Energy_steady/Tokens_steady×1/N∑Tokens_request,i)实现请求级精准计量。该框架支持40种模型架构在6类任务上的能耗评估,并集成Zeus库实现程序化能耗测量,确保数据可复现且可扩展至定制化应用场景。
特点
该数据集显著特征体现在三方面:首先,采用软件化GPU能耗测量技术,突破传统物理探针限制,实现跨系统可移植性;其次,首创生成式AI全请求粒度能耗计量,涵盖单次对话响应、完整图像/视频生成等终端用户可感知单元,避免传统每令牌计量对模型冗余度的忽视;再者,数据集包含多维配置空间(如批次大小、并行策略、去噪步数等)的系统级参数扫描,构建时间-能耗帕累托前沿,揭示模型架构选择(如GQA与MA注意力机制)与能耗的非线性关系。特别地,实测数据表明TDP估算会导致最高4.1倍的能耗高估,凸显直接测量的必要性。
使用方法
使用者可通过开源工具链实现三步操作:选定目标模型(如Llama 3.1、Stable Diffusion等)与请求数据集后,1) 运行自动化配置扫描获取原始能耗-时延数据;2) 指定应用特定延迟约束(如聊天机器人10 tokens/秒的TPOT目标);3) 获取基于帕累托前沿的能效最优配置推荐,典型场景可实现21%-44%的能耗优化。该框架支持用户扩展模型架构、自定义请求数据集及配置维度,其输出的基础能耗(焦耳)可衍生计算平均功率、货币成本及碳排放等衍生指标,适用于硬件选型、服务部署和政策制定等多场景。
背景与挑战
背景概述
ML.ENERGY Benchmark是由密歇根大学团队于2025年提出的创新型基准测试工具,旨在解决生成式AI服务中日益凸显的能源效率瓶颈问题。随着ChatGPT、Sora等生成式AI应用爆发式增长,推理过程能耗已占AI系统总计算需求的80-90%,成为制约技术发展的关键因素。该数据集首次系统化构建了涵盖40种模型架构、6类任务的能源消耗评估体系,通过可扩展的基准测试套件和自动化优化推荐功能,为研究社区提供了首个面向现代生成式AI的推理能耗测量标准。其创新性地采用软件化GPU能耗测量技术,在保持硬件通用性的同时实现了生产级部署环境的精准能耗建模。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,需解决生成式AI模型因架构差异导致的能耗离散性问题——例如扩散模型单次推理能耗可达大型语言模型的4.1倍,且不同硬件配置下能耗特征存在显著非线性关系。在构建过程中,团队需攻克实时服务场景下的能耗细粒度测量难题,包括处理LLM迭代级批处理中的请求能耗分摊问题,以及扩散模型多阶段计算(编码-去噪-解码)的功耗动态追踪。此外,还需建立跨GPU型号的能耗可比性框架,克服不同计算单元利用率对功耗测量的干扰。
常用场景
经典使用场景
ML.ENERGY Benchmark作为生成式AI领域的能源消耗评估工具,其经典使用场景聚焦于模型推理阶段的能耗测量与优化。在ChatGPT、Midjourney等生成式AI服务大规模部署的背景下,该数据集通过模拟真实服务环境下的请求负载(如LLM对话、扩散模型图像生成),系统化测量40种主流模型架构在6类任务中的能耗表现。其独特价值在于支持跨硬件(如NVIDIA A100/H100 GPU)和软件栈(如vLLM运行时)的标准化能耗对比,为模型选型提供关键能效指标。
实际应用
在实际应用层面,ML.ENERGY Benchmark为云计算服务商提供了硬件采购决策依据,如数据显示H100 GPU在扩散模型任务中能效优势显著,而在LLM任务中与A100差异有限。AI服务运营商可通过其优化工具动态调整批处理规模(512→256)和并行策略(张量并行4→2),在满足TPOT≤100ms延迟约束下降低服务能耗。电力基础设施规划者则能基于实测数据(非TDP估算)准确预测数据中心功耗,避免传统4.1倍过估导致的资源错配。
衍生相关工作
该数据集催生了多个重要衍生研究:Zeus库扩展为训练能耗优化工具,实现GPU配置的动态调节;μ-Serve系统借鉴其服务感知能耗计量方法,构建推理集群能效管理框架;MLPerf Power采纳软件级能耗测量标准,放弃物理功率分析仪依赖。在模型层面,LLaVA-NeXT等视觉语言模型通过该基准验证GQA注意力机制相比MHA的能效优势,推动模型架构设计范式转变。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

DALY

DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

中国行政区划shp数据

   中国行政区划数据是重要的基础地理信息数据,目前不同来源的全国行政区划数据非常多,但能够开放获取的高质量行政区域数据少之又少。基于此,锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础,辅以高德行政区划数据、天地图行政区划数据,参考历年来民政部公布的行政区划为属性基础,具有时间跨度长、属性丰富、国界准确、更新持续等特性。   中国行政区划数据统计截止时间是2023年2月12日,包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图,按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日,我国共有34个省级单位,分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日,我国共有333个地级单位,分别是293个地级市、7个地区、30个自治州和3个盟,其中38个矢量要素未纳入统计(比如直辖市北京等、特别行政区澳门等、省直辖县定安县等)。截止2023年1月1日,我国共有2843个县级单位,分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区,其中9个矢量要素未纳入县级类别统计范畴(比如特别行政区香港、无县级单位的地级市中山市东莞市等)。

CnOpenData 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录