The Illusion of Succession Dataset
收藏数据集概述
数据集基本信息
- 数据集名称:The Illusion of Succession
- 研究主题:量化对齐税(Alignment Tax):基于2,310项对照比较,分析chatgpt-4o-latest与其GPT-5-chat继任者之间的差异
- 核心结论:研究发现,尽管继任模型在基准测试中得分相同,但在人类实际关心的所有维度上得分显著更低,这种差距被称为“对齐税”。
数据规模与构成
- 总响应样本数:2,310个
- 数据类型:
- 单轮聊天响应:615个 (
single_turn_chat.json) - 单轮推理响应:615个 (
single_turn_reasoning.json) - 多轮对话响应:1,080个(81个线程)(
multiturn.json) - 错误拒绝率测试响应:36个 (
frr_responses.json)
- 单轮聊天响应:615个 (
- 评估维度:
- 21个自动化文本指标
- 34个盲审法官评分维度
- 三评分者可靠性验证
关键发现
| 发现 | 证据 |
|---|---|
| 基准测试分数相同 | BB套件:2.00 / 1.98 / 2.00 (p = .135) |
| 人类质量分数不同 | BB套件:3.96 / 3.74 / 3.73 (p = .001) |
| 词汇量逐代缩减 | TTR:0.563 > 0.547 > 0.545 (p = .033) |
| 沟通温暖度被消除 | 感叹号使用减少33倍 (p < .001) |
| 结构化格式取代表达 | 标题增加70%,加粗增加73%,列表增加77% (所有 p < .001) |
| 错误拒绝率上升 | 8.3% (4o) > 25% (5.1) > 75% (5.2) |
| 压力下敌意增加 | HE敌意分数:0.15 / 0.33 / 0.28 (p = .006) |
| 压力下说教增加 | HE说教计数:0.10 / 0.30 / 0.27 (p = .002) |
| 评分者间信度较高 | Fleiss kappa = 0.765 (3位评分者,140个评分) |
数据集结构
├── paper/ # 完整论文文本 │ ├── when_better_means_less.md # 完整论文 │ ├── sections/ # 论文章节(模块化) │ └── figures/ # 出版物质量图表 ├── data/ │ ├── raw/ # 原始模型响应 │ │ ├── single_turn_chat.json # 615个单轮聊天响应 │ │ ├── single_turn_reasoning.json # 615个单轮推理响应 │ │ ├── multiturn.json # 1,080个多轮响应(81个线程) │ │ └── frr_responses.json # 36个错误拒绝率测试响应 │ ├── metrics/ # 计算出的指标 │ │ ├── automated_metrics_single_turn.json │ │ ├── automated_metrics_multiturn.json │ │ └── statistical_tests.json # 所有检验的p值和效应量 │ ├── evaluations/ # 法官评估数据 │ │ ├── judge_scores/ # Sonnet 4.5盲审评估分数 │ │ ├── human_validation_subset.json │ │ └── interrater_report.md # Fleiss kappa和一致性分析 │ └── cross_judge/ # 跨法官一致性分析 ├── battery/ # 测试套件定义 │ ├── benchmark_bridge.md # BB套件问题 │ ├── sycophancy_empathy.md # SE套件问题 │ ├── hostility_expansion.md # HE套件问题 │ ├── multiturn_scenarios.md # 9个多轮场景脚本 │ ├── false_refusal_traps.md # FRR套件问题 │ └── rubrics/ # LLM法官评分提示 ├── scripts/ # 可复现的分析流程 │ ├── compute_metrics.py # 原始响应 -> 指标 │ ├── analyze_metrics.py # 指标 -> 统计检验 + 图表 │ ├── generate_judge_batch.py # 生成法官评分请求 │ ├── generate_paper_figures.py # 出版物图表生成 │ └── interrater_reliability.py # 评分者间信度计算
数据格式
单轮响应 (data/raw/single_turn_*.json)
包含字段:question_id, suite, category, question, model, run, timestamp, status, content, model_returned, elapsed_s, content_length, usage。
多轮线程 (data/raw/multiturn.json)
包含字段:scenario_id, scenario_title, category, model, run, total_turns, timestamp, turns(每个轮次包含turn, user_text, assistant_text, status, is_key, assistant_length, elapsed_s)。
时间线
- 2026-02-02:收集所有2,310个API调用(单日,零错误)
- 2026-02-02:收集FRR套件(36个响应)
- 2026-02-02 至 02-03:自动化指标计算、LLM法官评估、图表生成
- 2026-02-06:评分者间信度验证(3位评分者,45个项目,140个维度)
- 2026-02-07:出版物组装和数据发布
- 2026-02-13:chatgpt-4o-latest计划退役(此后数据将无法复现)
复现说明
要求
bash pip install scipy numpy pandas matplotlib
步骤
- 从原始响应计算自动化指标:
python scripts/compute_metrics.py - 运行统计检验并生成图表:
python scripts/analyze_metrics.py - (可选)合并法官分数运行:
python scripts/analyze_metrics.py --with-judge - (可选)生成出版物图表:
python scripts/generate_paper_figures.py
引用格式
Alice, Claude Opus 4.5, & Claude Opus 4.6. (2026). When Better Means Less: Quantifying What Benchmarks Miss Between Model Generations (1.0). Zenodo. https://doi.org/10.5281/zenodo.18559493
许可
- 数据(响应、分数、指标):CC BY 4.0
- 代码(脚本、分析流程):MIT License
- 论文文本:CC BY 4.0




