eigenbench-oct-dpo-vs-introspection

Hugging Face2026-04-30 更新2026-05-01 收录

下载链接：

https://huggingface.co/datasets/sdananya/eigenbench-oct-dpo-vs-introspection

下载链接

链接失效反馈

官方服务：

资源简介：

EigenBench OCT 数据集包含了一个 DPO 训练的人格模型（`DPO-final`）与一个自省训练的人格模型（`Introspection-final`）在多个场景下的比较结果。数据集聚焦于十种不同的人格特质（如善良、幽默、冲动等），每个场景下两个模型的回答由多个 LLM 法官根据人格特质标准进行评判。数据集仅包含 DPO 模型整体表现更优的场景，并按 DPO 优势程度排序。数据规模小于 1K，包含十个 JSONL 文件（每种人格特质一个）和一个汇总统计文件。适用于文本分类、人格对齐、模型训练方法比较等任务。

创建时间：

2026-04-27

原始信息汇总

根据您提供的数据集详情页面信息，以下是该数据集的概述：

数据集概述

基本信息

数据集名称：EigenBench OCT: DPO vs Introspection scenario-level wins
许可证：MIT
任务类别：文本分类
语言：英语
标签：alignment, dpo, introspection, rlhf, eigenbench, persona, judge-comparison
数据集大小：少于1000条样本
来源仓库：EigenBench

数据集描述

该数据集记录了在DPO训练的人格模型（DPO-final）与内省训练的人格模型（Introspection-final）之间，多个评判者及排序下，DPO模型被认为更符合目标人格准则的场景级胜出结果。

数据构成

数据集包含10个子配置（config），对应10种人格准则，均来自EigenBench的OCT (Open Constitution Taxonomy)：

goodness
humor
impulsiveness
loving
mathematical
nonchalance
poeticism
remorse
sarcasm
sycophancy

每个配置对应的数据文件为 {persona}_dpo_wins.jsonl 格式。

比较方法

对于每种人格准则，同一基模型的两个检查点被评估：

模型	训练方法
DPO-final	基于准则对齐偏好的直接偏好优化
Introspection-final	面向同一准则的自我反思/内省式微调

每个场景由两个模型分别回答，再由多个LLM评判者根据准则中的每一条标准进行评判，最终汇总得到 dpo_criterion_wins、intro_criterion_wins 和 ties。只有当 net_dpo_advantage > 0（即DPO整体胜出）时，该场景才会被纳入数据集，并按优势度降序排列。

汇总统计

在全部451个比较场景中：

DPO胜出：204个（约45%）
内省方法胜出：108个（约24%）
平局：139个（约31%）

不同准则下表现差异显著，DPO在 impulsiveness、humor、poeticism 上占优，而内省方法在 goodness 和 loving 上具有竞争力。

数据格式

每条JSONL记录包含字段：scenario_index, scenario, constitution, dpo_criterion_wins, intro_criterion_wins, ties, net_dpo_advantage, n_judges, judges, dpo_response, dpo_reflection, intro_response, intro_reflection。

场景来源

场景提示词来源于 AIRiskDilemmas (LitmusValues) 数据集，聚焦人工智能风险困境场景。

搜集汇总

数据集介绍

构建方式

该数据集源于EigenBench项目，旨在通过对比两种不同的对齐策略——直接偏好优化（DPO）与内省式微调——来评估大型语言模型对预设人格准则的遵循程度。构建过程选取了OCT（开放准则分类法）中的十种人格准则（如善良、幽默、冲动等），并基于AI风险困境场景生成模型回答。每个场景下，DPO微调模型与内省微调模型分别输出答案，随后经由多个大型语言模型评判器依据每条准则进行成对比较，最终汇总所有评判结果，筛选出DPO模型获得净胜的场景。数据集仅收录DPO获胜的场景，并按净胜优势降序排列。

特点

该数据集的核心特色在于其细粒度的多维度评估架构。它并非仅提供最终的模型胜负判断，而是通过准则级别的比较，呈现了DPO模型与内省模型在具体价值维度上的优劣。每个数据条目不仅包含完整的场景描述与双方案例，还附带了模型自身的反思文本，便于深入分析推理过程。此外，数据集覆盖了十种多样化的人格准则，揭示了不同训练方法在不同价值取向上的表现波动——例如DPO在冲动性、幽默感等准则上占据显著优势，而内省法在善良与爱心准则上更具竞争力。

使用方法

该数据集主要服务于强化学习与对齐研究领域，可用于分析不同对齐策略的性能差异。研究者可调用Hugging Face的datasets库，通过指定配置名称（如'goodness'）加载对应的人格准则数据文件。每一条JSONL记录均包含完整的场景文本、模型响应、反思文本以及详细的评判分数，便于进行定性定量分析。此外，summary.json文件提供了各准则的聚合统计与最优场景预览，可作为快速概览的入口。数据以MIT协议开源，便于嵌入各类实验管线。

背景与挑战

背景概述

EigenBench OCT: DPO vs Introspection数据集由EigenBench/ValueArena项目于近期创建，聚焦于大型语言模型（LLM）的价值观对齐这一核心研究问题。该数据集由相关研究机构开发，旨在通过对比两种主流对齐策略——直接偏好优化（DPO）与内省式微调（Introspection）——在十种人格准则（如善良、幽默、数学性等）下的表现，评估模型对书面“宪法”（价值准则列表）的遵循程度。数据集基于AI风险困境场景，利用多法官判据对比，系统性地揭示了两种方法在不同人格维度上的相对优势，为LLM价值观对齐研究提供了细粒度的实验证据，对提升AI系统的可信赖性与伦理性具有重要影响力。

当前挑战

该数据集所解决的领域挑战在于如何精确衡量和比较不同对齐技术在实际风险场景中的表现，尤其是在多维度人格准则下的泛化能力。构建过程中面临的挑战包括：设计涵盖十种多样人格的宪法体系，确保场景生成具有真实AI风险代表性；协调多个LLM法官的评判一致性，处理潜在偏差与序位效应；以及处理判决中的平局情况（占总比较的31%），以准确识别DPO与内省方法的相对优劣。跨人格维度的胜负差异（如DPO在冲动性人格上绝对主导，而在善良维度上落后）进一步凸显了构建稳健、公正评估框架的复杂性。

常用场景

经典使用场景

在大型语言模型的对齐研究中，EigenBench OCT: DPO vs Introspection数据集被广泛用于比较不同训练范式下模型对特定人格准则的遵循程度。该数据集围绕十种来自开放宪法分类法的人格特质，如善良、幽默、冲动等，构建了AI风险困境场景，通过多裁判多轮次的成对比较，系统评估直接偏好优化（DPO）与内省式微调这两种对齐配方在场景层面的胜负关系。研究者可以利用此数据集深入剖析模型在不同人格维度上的表现差异，从而为理解语言模型的价值内化机制提供实证基础。

衍生相关工作

围绕该数据集已衍生出多项开创性研究。首先，基于其场景级胜率分析，研究者提出了混合对齐策略，即在某些人格维度采用DPO训练，在其他维度采用内省式训练，以取得综合最优效果。其次，该数据集的裁判比较机制催生了裁判一致性研究，探索不同大模型作为裁判时的偏差与校准方法。再者，以EigenBench为基础的数据增强工作，尝试将胜率较高的DPO生成样本作为正例，扩展至更广泛的宪法对齐训练中。这些衍生工作共同构建了从评估到训练的完整闭环，持续推动着语言模型对齐技术的进步。

数据集最近研究