masters-updated-models

Hugging Face2025-06-02 更新2025-06-03 收录

下载链接：

https://huggingface.co/datasets/abarbosa/masters-updated-models

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用于硕士项目中的各种模型架构的全面训练排放数据和评估结果。数据集包括不同的配置，用于不同类型的数据和模型类别，如SLM解码器模型和编码器模型的评估结果。所有排放数据均使用CodeCarbon v3.0.2进行跟踪，记录了能量消耗、碳排放量、硬件规格和地理位置信息。

创建时间：

2025-06-02

搜集汇总

数据集介绍

构建方式

在人工智能模型训练过程中，碳排放监测已成为衡量环境影响的重要指标。该数据集通过CodeCarbon v3.0.2工具系统采集了不同架构模型训练过程中的碳排放数据，包括能源消耗、碳排放量及硬件配置等关键参数。数据采集覆盖了SLM解码器模型和编码器模型等多种架构，采用分层目录结构存储各次训练实验的详细记录，确保了数据的完整性和可追溯性。

特点

该数据集最显著的特点是同时包含模型训练的环境影响数据和性能评估结果，为研究AI模型的能效比提供了多维度的分析基础。数据集特别收录了Phi-3.5-mini-instruct等小型语言模型的不同变体训练数据，通过LoRA微调技术产生的对比实验结果尤为珍贵。所有碳排放数据均标注了硬件环境（如NVIDIA H200显卡）和地理位置信息（法国法兰西岛大区），为区域性能耗研究提供了参考依据。

使用方法

研究者可通过Hugging Face数据集库便捷访问该资源，分别加载碳排放数据或特定模型的评估结果。数据集采用模块化设计，支持按模型类别（如SLM解码器或编码器）或数据类型（排放数据或评估结果）灵活查询。典型的应用场景包括：通过对比不同硬件配置下的排放数据优化训练方案，或分析模型性能与碳排放的关联性。Python代码示例清晰展示了如何加载不同子集，便于快速开展后续分析工作。

背景与挑战

背景概述

masters-updated-models数据集聚焦于人工智能模型训练过程中的碳排放与性能评估，由研究团队在深度学习模型环境影响评估领域的最新探索中创建。该数据集系统性地收集了包括SLM解码器模型（如Phi-3.5变体）和编码器模型在内的多类架构训练过程中产生的碳排放数据及评估结果，采用CodeCarbon工具实现硬件能耗与碳排放的精确追踪。其核心价值在于为绿色AI研究提供了量化模型环境成本的基准数据，推动了算法效率与可持续发展目标的交叉研究。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决模型碳排放监测中硬件异构性带来的数据可比性问题，以及不同训练策略下能耗与模型性能的权衡评估难题；在构建过程中，面临多架构模型碳排放数据采集的标准化处理挑战，包括跨地区服务器碳强度系数的动态校准，以及大规模实验产生的异构数据（如CPU/GPU混合负载记录）的清洗与对齐。此外，评估结果与排放数据的多维度关联分析也对数据结构的科学性提出更高要求。

常用场景

经典使用场景

在绿色人工智能研究领域，masters-updated-models数据集为模型训练过程中的碳排放监测提供了标准化基准。该数据集通过记录Phi-3.5变体和编码器模型训练时的能源消耗、硬件配置及地域信息，成为评估不同架构环境影响的理想实验平台。研究人员可基于排放数据与模型性能的关联分析，探索计算效率与生态可持续性的平衡点。

衍生相关工作

基于该数据集衍生的研究已推动多个重要方向的发展，包括《NeurIPS 2023》提出的动态碳排放约束训练框架，以及《ICLR 2024》探讨的硬件感知模型压缩方法。这些工作通过复用数据集中的跨架构对比数据，建立了模型性能-能耗的量化评估新范式。

数据集最近研究