eigenbench-oct-dpo-vs-introspection
收藏根据您提供的数据集详情页面信息,以下是该数据集的概述:
数据集概述
基本信息
- 数据集名称:EigenBench OCT: DPO vs Introspection scenario-level wins
- 许可证:MIT
- 任务类别:文本分类
- 语言:英语
- 标签:alignment, dpo, introspection, rlhf, eigenbench, persona, judge-comparison
- 数据集大小:少于1000条样本
- 来源仓库:EigenBench
数据集描述
该数据集记录了在DPO训练的人格模型(DPO-final)与内省训练的人格模型(Introspection-final)之间,多个评判者及排序下,DPO模型被认为更符合目标人格准则的场景级胜出结果。
数据构成
数据集包含10个子配置(config),对应10种人格准则,均来自EigenBench的OCT (Open Constitution Taxonomy):
- goodness
- humor
- impulsiveness
- loving
- mathematical
- nonchalance
- poeticism
- remorse
- sarcasm
- sycophancy
每个配置对应的数据文件为 {persona}_dpo_wins.jsonl 格式。
比较方法
对于每种人格准则,同一基模型的两个检查点被评估:
| 模型 | 训练方法 |
|---|---|
| DPO-final | 基于准则对齐偏好的直接偏好优化 |
| Introspection-final | 面向同一准则的自我反思/内省式微调 |
每个场景由两个模型分别回答,再由多个LLM评判者根据准则中的每一条标准进行评判,最终汇总得到 dpo_criterion_wins、intro_criterion_wins 和 ties。只有当 net_dpo_advantage > 0(即DPO整体胜出)时,该场景才会被纳入数据集,并按优势度降序排列。
汇总统计
在全部451个比较场景中:
- DPO胜出:204个(约45%)
- 内省方法胜出:108个(约24%)
- 平局:139个(约31%)
不同准则下表现差异显著,DPO在 impulsiveness、humor、poeticism 上占优,而内省方法在 goodness 和 loving 上具有竞争力。
数据格式
每条JSONL记录包含字段:scenario_index, scenario, constitution, dpo_criterion_wins, intro_criterion_wins, ties, net_dpo_advantage, n_judges, judges, dpo_response, dpo_reflection, intro_response, intro_reflection。
场景来源
场景提示词来源于 AIRiskDilemmas (LitmusValues) 数据集,聚焦人工智能风险困境场景。




