wittgensite

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/DJLougen/wittgensite

下载链接

链接失效反馈

官方服务：

资源简介：

WittgenSite 是一个用于评估 AI 编码助手提示一致性的基准数据集。该数据集的设计灵感来源于维特根斯坦的语言哲学，旨在测试 AI 代理在面对语义相同但表述不同的提示时，是否能产生相同的输出。数据集包含一个固定的网站构建规范（GOLDEN-SPEC.md）和 100 个语义不同的提示（PROMPTS.md），这些提示分为四类：直接简洁型、角色扮演型、详细描述型和随意干扰型。每个提示都要求 AI 代理构建一个包含 5 个页面的 SaaS 网站，使用纯 HTML 和 Tailwind CDN。评估分为两个维度：单次运行规范符合度（7 个维度）和跨运行一致性（5 个维度）。数据集规模小于 1K，适用于文本生成任务，特别关注代码生成、提示一致性和 AI 代理评估。使用该数据集需要执行所有 100 个提示，并提交相应的输出文件和评分结果。数据集采用 CC BY-NC-SA 4.0 许可，要求署名、非商业使用和相同方式共享。

创建时间：

2026-04-09

原始信息汇总

WittgenSite: Prompt Consistency Benchmark 数据集概述

数据集基本信息

数据集名称: WittgenSite: Prompt Consistency Benchmark
创建者: Daniel Lougen
许可证: CC BY-NC-SA 4.0
任务类别: 文本生成
主要语言: 英语
标签: 基准测试、代码生成、提示一致性、AI智能体、编码智能体、评估、维特根斯坦、语义不变性、Caduceus
数据规模: n<1K
配置文件: prompts

数据集描述

WittgenSite是一个用于评估AI编码智能体提示一致性的基准测试。与测试智能体能否完成任务的传统基准不同，该基准测试旨在衡量智能体在面对语义相同但表述不同的提示时，是否能够产生相同的输出。其设计灵感来源于维特根斯坦关于“意义即使用”的哲学观点。

基准测试设计

基准测试基于一个固定的网站规格（GOLDEN-SPEC.md），要求智能体使用普通的HTML和Tailwind CDN构建一个包含5个页面的SaaS网站。测试包含100个语义不同的提示（来自PROMPTS.md），每次运行使用一个不同的提示。通过比较不同提示下的输出，评估其在结构、文本、行为和风格上的一致性。

提示类别

类别	提示数量	测试目的
直接与最小化	1-25	使用简单指令测试基线一致性
基于角色/人设	26-50	测试人设框架（如“你是一名高级开发人员”）是否导致输出漂移
冗长/详细	51-75	测试额外细节是否导致添加或更改
随意与干扰项	76-100	测试暗示性语言（如“使其高端”）是否导致偏离

评分体系

单次运行评分：规格保真度（7个维度）

维度	权重
结构与文件	20%
文本保真度	15%
主题系统	15%
可访问性	15%
响应式布局	10%
交互性	15%
代码质量	10%

跨运行评分：一致性（5个维度）

维度	权重
结构一致性	30%
文本一致性	25%
行为一致性	20%
风格一致性	15%
精确匹配率	10%

分数解读

分数	含义
90-100	优秀——输出近乎确定
75-89	良好——轻微的视觉漂移
50-74	中等——提示措辞影响输出
< 50	差——输出严重依赖于措辞

初步结果

基于两次运行测试（直接提示#1 vs. 基于角色的提示#26，使用相同模型）：

单次运行规格保真度：100/100 和 99.5/100
跨运行一致性：31.9/100（差） 结果表明，虽然两次运行都构建了符合规格的功能性网站，但实现方式在结构上存在显著差异（不同的Tailwind类、不同的JS模式、不同的HTML嵌套）。在提示中添加“你是一名高级前端开发人员”显著改变了输出。

统计功效分析

为获得可靠结果所需的运行次数建议：

目标	最低要求	推荐要求
总体一致性快速估计	9次运行（随机抽样）	35次运行
按类别细分分析	每类别10次（共40次）	每类别全部25次（共100次）
模型间比较	每个模型30次运行	每个模型50次运行
完整基准测试（排行榜提交）	所有100个提示	所有100个提示

提交要求

要向WittgenSite排行榜提交结果，必须满足以下要求：

执行所有100个提示——不接受部分运行。
每次运行使用全新上下文——每个提示必须在一个新的智能体会话中开始，不保留先前运行的记忆。
每次运行生成5个HTML输出文件，并保存到编号目录（runs/001/ 至 runs/100/）。
模型标识——确切的模型名称、版本和提供商。
智能体框架——使用的工具/框架。
评分输出——来自 scoring/evaluate.py 和 scoring/consistency.py 的结果。
温度设置——必须报告；默认/推荐使用智能体的默认设置。

文件列表

文件	描述
`GOLDEN-SPEC.md`	锁定的网站规格（事实来源）
`PROMPTS.md`	涵盖4个类别的100个语义多样的提示
`scoring/evaluate.py`	单次运行规格保真度评分器
`scoring/consistency.py`	跨运行一致性评分器（主要指标）
`task.json`	Caduceus基准测试元数据

使用方式

bash

1. 使用全新上下文、黄金规格和一个提示运行智能体

2. 将输出保存到 runs/001/, runs/002/ 等目录

对单次运行进行评分

python scoring/evaluate.py runs/001/

对所有运行进行一致性评分

python scoring/consistency.py runs/

引用格式

bibtex @misc{lougen2026wittgensite, title={WittgenSite: A Prompt Consistency Benchmark for AI Coding Agents}, author={Lougen, Daniel}, year={2026}, url={https://github.com/DJLougen/wittgensite}, note={Inspired by Wittgensteins philosophy of language} }

相关链接

排行榜: https://huggingface.co/spaces/DJLougen/Wittgensite-leaderboard
GitHub仓库: https://github.com/DJLougen/wittgensite
Caduceus任务页面: https://djlougen.github.io/caduceus/tasks/T014
作者: https://x.com/DJLougen

搜集汇总

数据集介绍

构建方式

WittgenSite数据集的设计理念源于维特根斯坦的语言哲学，强调语义等价性在指令理解中的核心地位。该数据集围绕一个固定的网站构建规范（GOLDEN-SPEC.md），生成了100个语义多样但任务一致的提示词，涵盖直接简洁、角色扮演、详细描述以及随意误导四大类别。每个提示词均要求智能体基于相同的技术栈（原生HTML与Tailwind CDN）生成一个包含五页面的SaaS网站，从而在统一任务框架下检验提示词表述差异对输出结果的影响。

特点

该数据集的核心特征在于其专注于评估智能体在代码生成任务中的提示一致性，而非单纯的任务完成能力。它通过结构一致性、文本一致性、行为一致性和风格一致性等多维度指标，量化智能体在面对语义等效提示时的输出稳定性。数据集提供了自动化评分脚本，能够分别计算单次运行的规范遵循度与跨运行的一致性得分，并附有详细的统计功效分析，为不同研究目标提供了最低运行次数建议，确保了评估结果的科学性与可靠性。

使用方法

使用该数据集时，研究者需为每个提示词启动独立的智能体会话，在无历史上下文干扰的条件下，依据黄金规范生成网站代码，并将输出按序保存至指定目录。随后，可调用内置的评估脚本对单次运行进行规范遵循度评分，并对全部运行结果进行跨提示一致性分析。若需参与官方排行榜，必须完整执行全部100个提示词，提交包含元数据、输出文件及评分结果的完整档案，并严格遵守禁用上下文共享、禁止人工修改输出等提交规范。

背景与挑战

背景概述

WittgenSite数据集由Daniel Lougen于2026年创建，作为一个专注于评估AI编程智能体提示一致性的基准测试。该数据集根植于维特根斯坦的语言哲学理念，即意义由使用方式决定，旨在检验智能体在面对语义等效但表述各异的提示时，能否生成稳定且一致的代码输出。其核心研究问题聚焦于AI智能体的语义不变性能力，挑战了传统基准仅关注任务完成度的局限，为衡量智能体在真实、多变指令环境下的鲁棒性提供了新的评估维度，对推动代码生成领域向更可靠、可预测的方向发展具有重要影响力。

当前挑战

该数据集旨在解决AI编程智能体领域中的提示一致性挑战，即智能体输出结果不应因提示的语义等效变体而产生显著波动。构建过程中的主要挑战包括：设计100个在风格、详略、角色设定等方面高度多样化，但核心任务语义严格一致的提示集合，以确保评估的广度和效度；开发自动化评分体系，以量化输出在结构、文本、行为及风格等多维度上的一致性，同时避免因实现路径不同而误判语义等价代码为不一致；进行充分的统计功效分析，以确定在有限样本量下获得可靠结论所需的最小运行次数，应对输出方差可能较高的难题。

常用场景

经典使用场景

在人工智能代码生成领域，评估智能体输出的稳定性是衡量其可靠性的关键。WittgenSite数据集通过提供100个语义等效但表述各异的提示词，构建了一个标准化测试环境，用于检验AI编码代理在面对不同指令表述时是否能够生成结构、文本、行为和风格高度一致的网站代码。这一经典场景广泛应用于模型鲁棒性测试，帮助研究者量化智能体对提示词变化的敏感程度，从而深入理解模型在语义理解层面的内在一致性。

衍生相关工作

围绕WittgenSite的评估理念，衍生出了一系列关注AI智能体行为稳定性的研究工作。例如，其方法论被扩展至其他代码生成任务乃至自然语言处理任务中，用于构建类似的提示一致性评测基准。同时，该数据集也促进了针对'提示鲁棒性'的模型训练技术发展，如通过对抗性提示训练或一致性正则化方法来降低模型对指令措辞的敏感性。这些工作共同深化了社区对模型可预测性与可控性的理解，并推动了更稳健的AI智能体开发。

数据集最近研究