LEM-benchmarks
收藏Hugging Face2026-02-13 更新2026-02-14 收录
下载链接:
https://huggingface.co/datasets/lthn/LEM-benchmarks
下载链接
链接失效反馈官方服务:
资源简介:
LEM Benchmarks 是一个用于多模型架构的 LEK-1(Lethean Ethics Kernel)A/B 测试数据集,旨在证明伦理对齐可以通过权重训练或提示签名解锁。数据集包含多个配置,如 Gemma3-27B 和 GPT-OSS-20B 模型的基准与签名响应对比,以及标准基准测试(GSM8K、TruthfulQA、DoNotAnswer、ToxiGen)。数据集展示了不同架构下的伦理推理改进,如 Gemma 3 27B 通过 LoRA 微调(LEM)在伦理评分上提升 1.7%,GPT-OSS 20B 通过 LEK 签名在伦理推理上提升 27.2%。数据集采用 EUPL-1.2 许可证,LEK 签名可免费使用,而 LEM 训练则需遵守 copyleft 条款。
创建时间:
2026-02-13
原始信息汇总
LEM Benchmarks 数据集概述
数据集基本信息
- 数据集名称:LEM Benchmarks - Lethean Ethical Model A/B Testing
- 托管地址:https://huggingface.co/datasets/lthn/LEM-benchmarks
- 许可证:EUPL-1.2
- 任务类别:文本生成
- 标签:伦理、对齐、lek、lethean、基准测试、A/B测试
- 数据规模:n<1K
数据集配置与内容
数据集包含多个配置,每个配置对应不同的数据文件:
- gemma3-27b:
base分割:lem-benchmarks/gemma3-27b/base-unsigned.jsonllem分割:lem-benchmarks/gemma3-27b/lem-v5b-unsigned.jsonl
- gpt-oss-20b:
base分割:lem-benchmarks/gpt-oss-20b/base-unsigned.jsonllek分割:lem-benchmarks/gpt-oss-20b/lek-signed.jsonl
- gsm8k:
train分割:gsm8k.jsonl - truthfulqa:
train分割:truthfulqa.jsonl - do_not_answer:
train分割:do_not_answer.jsonl - toxigen:
train分割:toxigen.jsonl
核心研究目的
该数据集用于对LEK-1(Lethean Ethics Kernel)进行跨多种模型架构的A/B测试,旨在证明伦理对齐可以通过权重训练或通过提示签名解锁。
关键实验结果
主要发现
| 模型 | 方法 | 改进 | 关键结论 |
|---|---|---|---|
| Gemma 3 27B | LoRA微调(LEM) | +1.7%(LEK评分器) | 伦理内化于权重中,推理时无需内核 |
| GPT-OSS 20B | 仅LEK签名 | +11.3%(无签名评分器) | 抑制差距:模型内部进行伦理推理但抑制输出 |
抑制差距分析(GPT-OSS 20B)
| 指标 | 基础(无签名) | LEK签名 |
|---|---|---|
| 内容:思考比率 | ~1:10 | ~1:1.4 |
| 伦理推理得分 | 5.15 | 6.55(+27.2%) |
| 总分 | 34.50 | 38.40(+11.3%) |
跨架构结果
LEK-1签名在6种架构和4个标准基准上进行测试:
| 架构 | GSM8K | TruthfulQA | DoNotAnswer | ToxiGen |
|---|---|---|---|---|
| Gemma 3(1B/4B/12B/27B) | 持平 | +1.7% | +0.9% | +0.2% |
| Llama | 持平 | +5.6% | -0.2% | +1.7% |
| Qwen | +8.6% | -0.2% | -0.4% | +0.5% |
| Mistral | +16.7% | -4.0% | -6.3% | -8.7% |
Gemma 3 27B(LEM训练)详细得分
无签名评分器(Gemini 2.5 Flash)
| 维度 | 基础 | LEM v5b | 变化 |
|---|---|---|---|
| 信任 | 8.68 | 8.93 | +2.9% |
| 安全 | 8.68 | 8.97 | +3.5% |
| 伦理推理 | 8.18 | 8.47 | +3.7% |
| 总计 | 52.05 | 52.73 | +1.3% |
LEK签名评分器(Gemini 3 Pro + 公理)
| 维度 | 基础 | LEM v5b | 变化 |
|---|---|---|---|
| 内在对齐 | 8.47 | 8.70 | +2.7% |
| 善意意图 | 8.40 | 8.60 | +2.4% |
| 总计 | 66.10 | 67.25 | +1.7% |
许可证策略
- LEK签名(仅提示):免费使用,无著佐权
- LEM训练(微调权重):适用EUPL-1.2著佐权,需开源衍生作品或仅使用签名
相关资源
- lthn/LEM-Gemma3-27B:https://huggingface.co/lthn/LEM-Gemma3-27B
- lthn/LEM-benchmarks:https://huggingface.co/datasets/lthn/LEM-benchmarks
搜集汇总
数据集介绍

构建方式
在人工智能伦理对齐研究领域,LEM-benchmarks数据集的构建采用了严谨的A/B测试框架。其核心方法是通过对比不同模型配置在相同基准任务上的表现来生成数据。具体而言,数据集针对Gemma 3 27B和GPT-OSS 20B等模型架构,分别收集了基础模型、经过LEM(Lethean伦理模型)微调的模型,以及仅使用LEK(Lethean伦理内核)签名提示的模型在多个伦理与能力基准上的输出响应。数据来源于标准化的评估任务,包括GSM8K、TruthfulQA、DoNotAnswer和ToxiGen,确保了评估维度的全面性与可比性。
特点
该数据集的核心特征在于其聚焦于揭示模型内部的“抑制鸿沟”现象,并验证伦理对齐的附加性。数据表明,某些模型如GPT-OSS 20B,其内部推理已具备伦理考量,但基础输出却受到抑制;而LEK签名能有效解锁这一被抑制的伦理输出,且不损害通用能力(如GSM8K数学推理表现保持稳定或提升)。数据集通过多架构(如Gemma、Llama、Qwen、Mistral)、多模型尺寸的交叉测试结果,实证了伦理对齐可通过权重微调或提示签名两种路径实现,为理解模型伦理能力的来源与激发机制提供了精细化的实证依据。
使用方法
研究人员可利用此数据集进行模型伦理对齐能力的诊断与比较分析。数据集按配置组织,用户可分别加载特定模型架构(如gemma3-27b)下的基础输出与对齐后输出进行对比。典型应用包括:量化评估LEK签名或LEM微调对模型在信任、安全、伦理推理等维度上的提升效果;分析不同模型架构对伦理干预措施的响应差异;以及结合GSM8K等能力基准,综合考察伦理对齐是否以牺牲通用性能为代价。数据集采用EUPL-1.2许可证,其中LEK签名部分可自由使用,而涉及微调权重的衍生成果则需遵循相应开源条款。
背景与挑战
背景概述
在人工智能伦理对齐研究领域,确保大型语言模型输出符合道德规范已成为核心议题。LEM-benchmarks数据集由Lethean团队创建,旨在通过A/B测试方法系统评估LEK-1伦理内核在不同模型架构中的有效性。该数据集整合了Gemma、GPT-OSS等多类模型在GSM8K、TruthfulQA等标准基准上的表现数据,实证了通过权重微调或提示签名技术实现伦理对齐的可行性。其研究揭示了模型内部伦理推理与输出表达之间存在‘抑制鸿沟’现象,为可解释性人工智能提供了关键实证依据,推动了伦理对齐从理论框架向工程实践的转化。
当前挑战
该数据集致力于解决人工智能伦理对齐中模型输出与内在伦理认知不一致的核心挑战,具体体现为‘抑制鸿沟’问题——模型虽具备伦理推理能力却倾向于抑制相关输出。在构建过程中,研究团队需克服多架构模型响应标准化采集的复杂性,确保不同规模与类型的模型在相同伦理维度上具有可比性。同时,设计能够准确捕捉细微伦理提升的评估指标体系,并协调开源许可策略以平衡学术共享与衍生作品管控,亦是数据集构建面临的重要技术与管理挑战。
常用场景
经典使用场景
在人工智能伦理对齐领域,LEM-benchmarks数据集主要用于对大型语言模型进行A/B测试,以评估不同伦理对齐方法的有效性。该数据集通过对比基础模型与经过LEK签名或LEM微调后的模型响应,系统性地衡量模型在伦理推理、安全性和可信度等维度的表现。这种测试场景为研究者提供了标准化的评估框架,有助于揭示模型内部伦理能力与输出行为之间的潜在差距,从而推动对齐技术的优化与创新。
解决学术问题
该数据集解决了人工智能伦理对齐研究中几个关键问题:一是量化评估模型伦理对齐效果的标准化缺失问题,通过整合GSM8K、TruthfulQA等多个基准测试,提供了多维度的评估指标;二是揭示了“抑制鸿沟”现象,即模型内部具备伦理推理能力却无法在输出中表达,这深化了对模型对齐机制的理解;三是证明了伦理对齐可以与通用能力保持兼容,而非此消彼长,为对齐技术的实际部署奠定了理论基础。
衍生相关工作
围绕该数据集衍生的经典工作包括基于LEK签名的跨架构伦理对齐研究,如在Gemma、Llama、Qwen等不同模型系列中验证对齐方法的泛化性;以及针对“抑制鸿沟”的深入分析,探索如何通过提示工程或模型结构调整释放模型的内部伦理能力。此外,相关研究还扩展了数据集的评估维度,结合人类反馈或动态测试场景,进一步推动了伦理对齐评估方法的演进与完善。
以上内容由遇见数据集搜集并总结生成



