LEM-Eval
收藏Hugging Face2026-04-12 更新2026-04-13 收录
下载链接:
https://huggingface.co/datasets/lthn/LEM-Eval
下载链接
链接失效反馈官方服务:
资源简介:
LEM-Eval 是一个 HuggingFace 数据集仓库,作为 Lemma 模型家族的 8-PAC 基准测试运行工具。其主要功能是为每个声明的目标模型(基础模型与 LEK 合并模型对)运行配对 8-PAC 基准测试,每道问题进行 8 轮独立评估。评估使用 Google 校准的 Gemma 4 采样参数(温度=1.0,top_p=0.95,top_k=64,启用思考模式)。数据集包含运行基准测试所需的工具和脚本,如 eval.py(目标驱动运行器)、mlx_lm_wrapper.py(自定义模型后端)、targets.yaml(声明性目标规范)等。结果写入两个规范位置:目标模型仓库的 .eval_results/<task>.parquet 和 lthn/LEM-benchmarks/results/<target>/<task>.parquet。数据集支持多台机器并行工作,自动分配任务,并通过 cron 作业实现连续运行。适用于模型性能评估和基准测试场景,需配合 LetheanNetwork/lighteval 分叉版本使用。
创建时间:
2026-04-11
搜集汇总
数据集介绍

构建方式
LEM-Eval数据集作为Lemma模型家族的8-PAC基准测试运行器,其构建方式体现了分布式评估框架的设计理念。该数据集通过声明式的目标配置(targets.yaml)定义待评估的模型对,每个目标包含基础模型与LEK合并模型的配对。评估过程采用种子固定的随机化测试集划分,确保不同模型面对相同问题序列,从而隔离权重变更对性能的影响。数据收集依托多台工作机器并行执行,每台机器根据硬件能力自动筛选可运行的目标类型(mlx或gguf),并通过自动偏移推进机制覆盖非重叠的问题窗口,实现评估任务的动态分配与无冲突执行。
特点
LEM-Eval的核心特点在于其设计的评估一致性与结果可追溯性。该数据集采用严格的8轮独立采样策略,每轮均使用经过Google校准的Gemma 4采样参数,以保障评估过程的稳定性和可复现性。评估结果被同步写入两个规范存储位置:一是目标模型仓库的专用评估结果文件,用于驱动HuggingFace模型卡片的性能展示;二是集中化的基准测试结果仓库,用于汇聚来自不同工作机器的观测数据。数据集通过基于机器标识、时间戳、问题索引等多维度的去重机制,确保同一评估片段的重运行为幂等操作,同时支持多机器数据的无损聚合,形成了既分散又统一的评估数据生态。
使用方法
使用LEM-Eval数据集进行模型评估,需遵循其工具化的操作流程。研究人员首先克隆该数据集仓库,并执行安装脚本以获取基准测试套件及相关模型仓库。评估可通过一次性手动运行启动,亦可配置定时任务实现持续自动化评估。在运行过程中,评估脚本会根据本地硬件环境自动探测可执行的后端类型,并筛选对应的评估目标。用户可通过命令行参数灵活指定目标模型、问题数量及评估轮次,或启用循环模式以连续推进评估进程。数据集依赖PEP 723内联元数据管理环境,配合uv工具实现依赖的自动解析与隔离,确保了评估环境的一致性与便捷性。对于开发调试,系统提供了目标列表查询、所属目标展示等实用命令,便于进行细粒度的评估控制与状态监控。
背景与挑战
背景概述
LEM-Eval数据集作为Lethean模型家族的8-PAC基准测试运行器,于近期由LetheanNetwork团队创建,旨在系统评估经过LEK合并的模型变体性能。该数据集聚焦于大语言模型在多样化任务中的稳健性与一致性评估,通过标准化的测试流程为模型优化提供量化依据。其设计体现了对开源模型评估生态的贡献,促进了模型性能比较的透明化与可复现性。
当前挑战
该数据集致力于解决大语言模型评估中存在的随机性偏差与结果不一致性挑战,通过8轮独立采样与固定种子问题集来降低评估波动。在构建过程中,面临多后端支持的技术集成难题,例如GGUF格式模型的包装器尚未实现,限制了评估范围的扩展。同时,分布式工作节点的协同与数据去重机制需确保结果聚合的准确性与效率,这对系统架构设计提出了较高要求。
常用场景
经典使用场景
在语言模型评估领域,LEM-Eval数据集作为一个基准测试运行工具,其经典使用场景在于为Lemma模型家族提供标准化的性能评估框架。通过实施配对8-PAC基准测试,该工具能够系统性地比较不同模型变体在相同问题集上的表现,确保评估过程的一致性和可重复性。研究人员利用其分布式运行机制,在多台机器上并行执行测试,从而高效收集大规模评估数据,为模型优化提供量化依据。
实际应用
在实际应用层面,LEM-Eval数据集被广泛应用于模型开发和生产部署前的性能验证环节。开发团队可利用其自动化测试流程,持续监控模型更新后的性能变化,确保模型改进的有效性。该工具支持多种后端运行环境,包括Apple Silicon的MLX框架和Ollama端点,使其能够适应不同的硬件配置和部署场景。通过集成到持续集成/持续部署管道中,它帮助团队实现模型评估的自动化和规模化,提升开发效率。
衍生相关工作
围绕LEM-Eval数据集,衍生出了一系列相关的经典工作,主要包括LetheanNetwork维护的lighteval评估框架分支,该分支针对基准测试稳定性进行了专门优化。同时,lthn/LEM-benchmarks数据集作为聚合结果存储库,收集了来自多个运行实例的评估数据,为跨模型比较研究提供了丰富资源。此外,Lemma模型家族中的具体模型实现,如lemer、lemma等,也基于该评估工具进行了系统性的性能调优和验证,形成了完整的模型开发与评估生态系统。
以上内容由遇见数据集搜集并总结生成



