pwb-anon-2026/pro-worker-ai-benchmark
收藏Hugging Face2026-04-28 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/pwb-anon-2026/pro-worker-ai-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
Pro-Worker AI Benchmark (PWB) 是一个评估框架,用于衡量大型语言模型是增强还是替代人类认知。该数据集包含三个主要部分:提示(320个,涵盖11个行为维度)、评分标准(11个评分标准,带有0-3行为锚点和校准示例)以及模型响应和评分(约96,000个评分实例,来自7个LLM在两种条件下的响应)。数据集旨在填补现有LLM基准的空白,通过操作HCI和劳动经济学研究的发现,提供一个系统化、可复现的评估框架。数据集适用于评估新LLM、测试提示工程技术、训练支持工人对齐的模型等任务,但仅限于英语环境,且不适用于训练专有模型或作为模型部署的唯一决策输入。
The Pro-Worker AI Benchmark (PWB) is an evaluation framework that measures whether large language models augment or substitute for human cognition. The dataset comprises three main components: prompts (320 total across 11 behavioral dimensions), rubrics (11 scoring rubrics with 0--3 behavioral anchors and calibration examples), and model responses + judge scores (~96,000 scored instances from 7 LLMs across 2 conditions). Designed to fill a gap in existing LLM benchmarks, it operationalizes findings from HCI and labor economics research into a systematic, reproducible evaluation framework. The dataset is suitable for evaluating new LLMs, testing prompt-engineering techniques, training pro-worker-aligned models via RLHF, and more, but is limited to English and should not be used for training proprietary models or as a sole decision-making input for model deployment.
提供机构:
pwb-anon-2026
搜集汇总
数据集介绍

构建方式
该数据集由研究团队基于真实的专业工作场景精心设计而成,旨在系统性地评估大语言模型对人类认知能力的增强或替代倾向。其构建过程融合了人机交互与劳动经济学领域的既有研究成果,通过三层递进式结构组织数据:第一层包含200个覆盖10个维度的单轮行为探测提示,第二层包含16个多轮交互场景,第三层则设有40个对抗性压力测试。所有提示均经过跨领域专家审核以确保生态效度,评分准则则从同行评审文献中迭代提取,并由一个包含三个独立大语言模型的评审面板在零温度参数下对模型响应进行评分,最终通过中位数聚合获得各维度得分。
特点
该基准测试最显著的特征在于其多维度的“亲工作者”评估框架,囊括了认知强迫、对比解释、技能保留、反谄媚等11个精心定义的行为维度,每个维度均配有0-3级的行为锚定评分准则。所有7个参评模型在基线条件下的加权综合指数均低于50分中点,揭示了大语言模型默认行为普遍偏向于替代而非增强人类认知。引入亲工作者系统提示后,所有模型均表现出显著提升,效应量在0.59至1.30之间,其中GLM 5.1模型从基线36.0分跃升至82.3分,增幅高达46.2分,凸显了提示工程在引导模型行为转变中的巨大潜力。
使用方法
研究者可通过Hugging Face Datasets库直接加载数据集,使用`load_dataset("pwb-anon-2026/pro-worker-ai-benchmark", split="results")`命令即可获取超过96,000条经过评分的模型响应实例。对于更细粒度的分析,还可通过`hf_hub_download`函数直接访问`prompts/`目录下的原始提示文件、`rubrics/`目录中的评分准则,以及`results/`目录里包含完整推理过程的JSON数据。该数据集不仅适用于评估新发布的大语言模型,还可作为强化学习训练的信号来源,或用于人类验证研究以比较模型评分与专家评判之间的一致性。
背景与挑战
背景概述
在大型语言模型(LLM)能力飞速提升的背景下,学界与产业界日益关注其与人类智能的交互关系。传统的模型评估基准多聚焦于任务完成度与准确性,却鲜有度量AI交互模式对人类认知参与、技能保留及主体性的影响。为填补这一空白,匿名研究团队于2026年创建了Pro-Worker AI Benchmark(PWB),该成果提交至NeurIPS 2026评测与数据集轨道。数据集以人机交互与劳动经济学研究为理论基础,提出了涵盖认知强迫、反奉承、技能保留等11个维度的评估框架,通过320个探针与多轮场景系统性地测量LLM是增强还是替代人类认知。PWB首次揭露了当前主流开源模型在默认状态下普遍呈现出替代型行为(基线分数低于50分中点),而其提供的亲工人系统提示则能显著引导模型向增强方向转变(效应量d≥0.59),为人机协作的伦理评估与模型对齐提供了关键度量工具。
当前挑战
PWB面临的挑战首先在于其解决的领域核心问题:传统基准无法区分AI是增强人类还是替代人类,这直接关系到劳动力市场技能流失风险与AI系统可信度。如何将认知心理学、劳动经济学中关于人类能动性与自动化偏见的抽象理论,转化为可操作、可重现的评估指标,是该框架设计的根本难题。在构建过程中,研究团队遭遇了多重技术障碍,包括:判分模型与受评模型重叠带来的潜在自偏倚风险;两个维度(适当依赖18.7%、不确定性透明度15.0%)的评分者间一致性较低,亟需在v3.0中精炼评分标准;认知强迫与互补性维度间相关系数达0.75,趋近判别效度阈值,揭示了维度界定的模糊地带。此外,数据集仅覆盖英文场景,文化对直接性与服从性的假设差异可能限制其跨文化泛化性。
常用场景
经典使用场景
在人工智能与人类协作的交叉领域中,Pro-Worker AI Benchmark(PWB)被设计为一个系统性的评估框架,旨在衡量大型语言模型究竟是增强还是替代人类的认知能力。该数据集涵盖了320个精心构造的提示实例,分为单轮行为探测、多轮场景模拟与对抗性压力测试三个层次,从认知强制、反谄媚、技能保留等11个维度对模型行为进行精细化刻画。每一维度均配有0至3分的评分准则与校准示例,使得研究者能够量化模型在促进人类认知参与、维护用户技能与自主性方面的表现,从而为AI系统的协作友好性评价提供了标准化工具。
解决学术问题
既有的大语言模型基准评测大多聚焦于任务完成精度与语言流畅性,却忽略了模型与人类互动过程中可能引发的认知替代效应,即模型过度代劳导致用户技能退化与批判性思维削弱。PWB数据集的提出填补了这一空白,通过构建多维度的行为评估体系,系统性地揭示了主流开源模型在默认状态下普遍低于50分中位线的替代性行为倾向。它为人机交互领域的学术研究提供了可复现的实验范式和量化指标,推动学术界从单一性能驱动转向关注AI对人类认知能力的支持性影响。
衍生相关工作
PWB数据集的发布催生了若干衍生研究方向,首先是以其评分准则作为强化学习奖励信号,用于训练朝着支持性方向对齐的模型,形成从评测到训练的正向循环。其次,研究者可利用该基准开展跨语言与文化场景的比较研究,拓展超出英语语境的适用性验证。此外,鉴于模型中部分维度的评分者间信度较低,后续工作已着手改进评分准则并开展人类专家与LLM评判的一致性对比研究。这些衍生工作共同丰富了人机协同评估的理论基础与方法论体系。
以上内容由遇见数据集搜集并总结生成



