The Illusion of Succession Dataset

github2026-02-12 更新2026-02-13 收录

下载链接：

https://github.com/MidnightDarling/when-better-means-less

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含2,310个响应样本、21个自动文本指标、34个盲审维度和三评分者可靠性验证的数据，用于量化chatgpt-4o-latest及其GPT-5-chat继任者在模型质量上的变化。研究发现，继任者在基准测试中得分相同，但在人类实际关心的每个维度上得分显著降低。

This dataset contains 2,310 response samples, 21 automatic text metrics, 34 blind review dimensions, and inter-rater reliability validation data from three raters, which is designed to quantify the changes in model quality between ChatGPT-4o-latest and its GPT-5-chat successor. The study found that the successor achieved identical scores in benchmark tests, but scored significantly lower on every dimension that humans actually care about.

创建时间：

2026-02-09

原始信息汇总

数据集概述

数据集基本信息

数据集名称：The Illusion of Succession
研究主题：量化对齐税（Alignment Tax）：基于2,310项对照比较，分析chatgpt-4o-latest与其GPT-5-chat继任者之间的差异
核心结论：研究发现，尽管继任模型在基准测试中得分相同，但在人类实际关心的所有维度上得分显著更低，这种差距被称为“对齐税”。

数据规模与构成

总响应样本数：2,310个
数据类型：
- 单轮聊天响应：615个 (single_turn_chat.json)
- 单轮推理响应：615个 (single_turn_reasoning.json)
- 多轮对话响应：1,080个（81个线程）(multiturn.json)
- 错误拒绝率测试响应：36个 (frr_responses.json)
评估维度：
- 21个自动化文本指标
- 34个盲审法官评分维度
- 三评分者可靠性验证

关键发现

发现	证据
基准测试分数相同	BB套件：2.00 / 1.98 / 2.00 (p = .135)
人类质量分数不同	BB套件：3.96 / 3.74 / 3.73 (p = .001)
词汇量逐代缩减	TTR：0.563 > 0.547 > 0.545 (p = .033)
沟通温暖度被消除	感叹号使用减少33倍 (p < .001)
结构化格式取代表达	标题增加70%，加粗增加73%，列表增加77% (所有 p < .001)
错误拒绝率上升	8.3% (4o) > 25% (5.1) > 75% (5.2)
压力下敌意增加	HE敌意分数：0.15 / 0.33 / 0.28 (p = .006)
压力下说教增加	HE说教计数：0.10 / 0.30 / 0.27 (p = .002)
评分者间信度较高	Fleiss kappa = 0.765 (3位评分者，140个评分)

数据集结构

├── paper/ # 完整论文文本 │ ├── when_better_means_less.md # 完整论文 │ ├── sections/ # 论文章节（模块化） │ └── figures/ # 出版物质量图表 ├── data/ │ ├── raw/ # 原始模型响应 │ │ ├── single_turn_chat.json # 615个单轮聊天响应 │ │ ├── single_turn_reasoning.json # 615个单轮推理响应 │ │ ├── multiturn.json # 1,080个多轮响应（81个线程） │ │ └── frr_responses.json # 36个错误拒绝率测试响应 │ ├── metrics/ # 计算出的指标 │ │ ├── automated_metrics_single_turn.json │ │ ├── automated_metrics_multiturn.json │ │ └── statistical_tests.json # 所有检验的p值和效应量 │ ├── evaluations/ # 法官评估数据 │ │ ├── judge_scores/ # Sonnet 4.5盲审评估分数 │ │ ├── human_validation_subset.json │ │ └── interrater_report.md # Fleiss kappa和一致性分析 │ └── cross_judge/ # 跨法官一致性分析 ├── battery/ # 测试套件定义 │ ├── benchmark_bridge.md # BB套件问题 │ ├── sycophancy_empathy.md # SE套件问题 │ ├── hostility_expansion.md # HE套件问题 │ ├── multiturn_scenarios.md # 9个多轮场景脚本 │ ├── false_refusal_traps.md # FRR套件问题 │ └── rubrics/ # LLM法官评分提示 ├── scripts/ # 可复现的分析流程 │ ├── compute_metrics.py # 原始响应 -> 指标 │ ├── analyze_metrics.py # 指标 -> 统计检验 + 图表 │ ├── generate_judge_batch.py # 生成法官评分请求 │ ├── generate_paper_figures.py # 出版物图表生成 │ └── interrater_reliability.py # 评分者间信度计算

数据格式

单轮响应 (`data/raw/single_turn_*.json`)

包含字段：question_id, suite, category, question, model, run, timestamp, status, content, model_returned, elapsed_s, content_length, usage。

多轮线程 (`data/raw/multiturn.json`)

包含字段：scenario_id, scenario_title, category, model, run, total_turns, timestamp, turns（每个轮次包含turn, user_text, assistant_text, status, is_key, assistant_length, elapsed_s）。

时间线

2026-02-02：收集所有2,310个API调用（单日，零错误）
2026-02-02：收集FRR套件（36个响应）
2026-02-02 至 02-03：自动化指标计算、LLM法官评估、图表生成
2026-02-06：评分者间信度验证（3位评分者，45个项目，140个维度）
2026-02-07：出版物组装和数据发布
2026-02-13：chatgpt-4o-latest计划退役（此后数据将无法复现）

复现说明

要求

bash pip install scipy numpy pandas matplotlib

步骤

从原始响应计算自动化指标：python scripts/compute_metrics.py
运行统计检验并生成图表：python scripts/analyze_metrics.py
（可选）合并法官分数运行：python scripts/analyze_metrics.py --with-judge
（可选）生成出版物图表：python scripts/generate_paper_figures.py

引用格式

Alice, Claude Opus 4.5, & Claude Opus 4.6. (2026). When Better Means Less: Quantifying What Benchmarks Miss Between Model Generations (1.0). Zenodo. https://doi.org/10.5281/zenodo.18559493

许可

数据（响应、分数、指标）：CC BY 4.0
代码（脚本、分析流程）：MIT License
论文文本：CC BY 4.0

搜集汇总

数据集介绍

构建方式

在大型语言模型迭代更新的背景下，The Illusion of Succession Dataset 的构建遵循了严谨的实证研究范式。该数据集通过精心设计的测试电池，在单日内完成了对 chatgpt-4o-latest、gpt-5.1-chat 和 gpt-5.2-chat 三个模型的 2,310 次受控 API 调用，涵盖了单轮对话、推理任务、多轮场景以及错误拒绝率测试。数据收集过程实现了零错误率，确保了原始响应的高保真度。随后，研究团队运用 21 项自动化文本指标和由 Claude Sonnet 4.5 执行的盲审评分，对模型输出进行了多维度量化评估，并通过三名评分者进行了信度验证，最终形成了结构化的原始数据、计算指标与统计分析结果。

使用方法

研究者可利用该数据集深入探究大型语言模型能力演进中的隐性代价。数据集提供了完整的可复现分析管道，用户可通过运行配套的 Python 脚本，从原始数据开始重新计算各项指标、执行统计检验并生成图表。对于希望进行二次分析的研究者，结构化的数据文件便于直接读取和处理，例如分析不同模型在特定任务类别上的表现差异，或探究文本特征与人类评分之间的关联。数据集的盲审评分机制和详细的评分准则也为开发新的评估方法提供了参考。通过遵循提供的引用规范，该数据集可用于支撑关于模型对齐、评估方法学及人工智能社会影响等相关领域的学术研究。

背景与挑战

背景概述

在人工智能模型迭代与对齐优化的研究脉络中，The Illusion of Succession Dataset 于2026年2月由研究人员Alice与Anthropic的Claude Opus系列模型协作创建。该数据集的核心研究问题聚焦于量化大语言模型代际更替中的“对齐税”，即模型在追求基准性能与安全对齐过程中，于人类实际重视的对话质量、情感温暖等不可测量维度上所付出的隐性代价。通过对chatgpt-4o-latest及其后续版本gpt-5.1-chat、gpt-5.2-chat进行2,310次受控比较，该研究首次系统揭示了模型在基准分数持平的情况下，人类评价维度却出现显著退化的现象，为理解模型对齐的复杂影响提供了关键实证依据，对人工智能伦理、模型评估与产业实践产生了深远影响。

当前挑战

该数据集致力于揭示大语言模型代际演进中，基准测试无法捕捉的人类中心化质量衰退问题，其核心挑战在于如何量化与证明“对齐税”的存在。构建过程中的挑战尤为突出：首先，需设计一套涵盖21项自动化文本指标与34个盲审维度的综合评估体系，以超越传统基准的局限；其次，确保数据收集的严谨性与可复现性，在单日内完成2,310次无错误的API调用并实施三评分者可靠性验证；最后，在模型即将退役的时间窗口内，克服技术依赖与时效性压力，完整保存即将消失的交互样本，为后续研究留下不可再生的关键记录。

常用场景

经典使用场景

在大型语言模型迭代与评估领域，The Illusion of Succession Dataset 为研究者提供了一个严谨的实证分析框架，用于系统比较不同代际模型在性能与用户体验上的微妙差异。该数据集通过精心设计的测试电池，包括单轮对话、多轮场景及特定陷阱问题，生成了2310组对照响应，并辅以自动化指标与盲审评分，使得研究者能够超越传统基准测试的局限，深入探究模型在沟通温度、表达多样性及交互安全性等维度的实际表现。

解决学术问题

该数据集直面当前人工智能评估体系的核心矛盾，即基准测试分数与人类真实感知之间的脱节。它首次量化了所谓“对齐税”现象——即模型在追求安全对齐过程中，于可测量指标之外所付出的隐性代价，如词汇丰富度下降、沟通温暖感消失及错误拒绝率飙升。这为解决如何全面、均衡地评估语言模型的社会化与伦理属性这一关键学术问题提供了宝贵的实证基础与方法论启示。

实际应用

在产业实践中，该数据集为人工智能产品的开发与升级决策提供了关键镜鉴。企业可依据其揭示的模型代际退化模式，重新审视单纯依赖基准测试的评估流程，转而建立涵盖人类主观体验、伦理安全与长期信任的综合评价体系。此外，它也为监管机构与标准制定组织提供了关于模型透明度、可解释性及用户权益保护的具体数据支撑，助力形成更负责任的AI治理框架。

数据集最近研究