anonymousreview111/judgesense-benchmark
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/anonymousreview111/judgesense-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
JudgeSense是一个基准数据集,包含500个经过人工验证的提示对,用于衡量LLM-as-a-Judge评估系统中的提示敏感性。每对提示包含两个措辞不同但语义相同的法官提示,应用于相同的响应,从而能够严格测量法官决策仅因提示措辞而变化的程度。数据集涵盖四种评估任务类型:事实性(Factuality)、连贯性(Coherence)、偏好(Preference)和相关性(Relevance)。所有500对提示均由人工标注者验证,其中450对确认语义等效,50对涉及模板4(极性反转)的提示对在评估代码中通过标签重映射处理。数据集还引入了法官敏感性评分(JSS)指标,用于量化法官对提示措辞的敏感性。
JudgeSense is a benchmark dataset of 500 hand-validated prompt pairs for measuring prompt sensitivity in LLM-as-a-Judge evaluation systems. Each pair contains two differently phrased but semantically equivalent judge prompts applied to the same response, enabling rigorous measurement of how much a judges decision changes due to prompt wording alone. The dataset covers four evaluation task types: Factuality, Coherence, Preference, and Relevance. All 500 pairs were validated by a human annotator: 450 confirmed semantically equivalent; 50 pairs involving Template 4 (polarity-inverted) are flagged and handled via label remapping in the evaluation code. The dataset also introduces the Judge Sensitivity Score (JSS) metric to quantify this sensitivity.
提供机构:
anonymousreview111
搜集汇总
数据集介绍

构建方式
JudgeSense基准数据集旨在系统性地量化和评估大语言模型在充当裁判(LLM-as-a-Judge)时对提示词表述变化的敏感性。该数据集的核心构建单元为500对经过人工验证的提示词对,每一对包含两个表述不同但语义等价的裁判提示,并应用于同一模型生成回复。所有500对数据经由人工标注者严格确认语义等价性,其中450对为完全等价,另有50对涉及极性反转的模板(Template 4),在评测代码中通过标签重映射机制予以特殊处理。数据集覆盖事实准确性、连贯性、偏好和相关性四类典型评测任务,分别源自TruthfulQA、SummEval、MT-Bench和BEIR等权威基准,每类任务各含125对精心构造的样本。
特点
JudgeSense数据集的最突出特点在于其深邃的评测视角——它不关注裁判模型对单一回复的评判准确度,而是聚焦于同一裁判模型在两组语义等价提示下决策产生分歧的脆弱性。通过独创的裁判敏感度分数(JSS)指标,该数据集将裁判一致性量化为0到1之间的连续值,JSS越高代表裁判越稳健。基准评测结果显示,13种主流裁判模型在连贯性任务上的JSS差距超过0.6,且该分数与模型规模及发布时间均无显著关联,例如Claude Opus 4.7的JSS(0.70)竟然低于Claude Haiku 4.5(0.73),GPT-4o(0.92)优于后续的GPT-5.5(0.83),这些反直觉的发现揭示了提示词设计在裁判系统中的关键作用。
使用方法
使用JudgeSense数据集进行评测时,研究者可借助项目提供的辅助函数便捷加载数据:通过load_task函数加载单一任务类型的全部提示词对,或利用load_all函数获取完整数据。随后分别将两组提示词与待评回复提交至待测裁判模型,记录其输出决策,最终调用compute_jss函数计算裁判敏感度分数JSS,该分数即所有样本对中两组决策一致的占比。此外,项目提供了完整的运行脚本示例,便于快速复现评测流程。该数据集以JSONL格式存储,每条记录包含对标识、任务类型、原始源基准、两组提示词、待评回复及真实标签等信息,灵活适配各类开源或商用裁判模型的评估需求。
背景与挑战
背景概述
JudgeSense基准数据集于2025年由匿名研究团队创建,旨在系统评估大型语言模型作为评判者(LLM-as-a-Judge)时的提示敏感性。该数据集包含500对经人工验证的语义等价提示,覆盖事实性、连贯性、偏好性和相关性四种评估任务,分别源自TruthfulQA、SummEval、MT-Bench和BEIR等权威基准。研究核心问题在于量化提示措辞的微小变化对评判决策一致性的影响,并提出Judge Sensitivity Score(JSS)作为衡量指标。该数据集填补了LLM评估系统中提示鲁棒性研究的空白,为检测提示诱导的偏差和比较不同评判模型的稳健性提供了标准化工具,对推动更可靠、更公平的自动评估方法具有重要价值。
当前挑战
JudgeSense基准所解决的领域挑战在于LLM-as-a-Judge系统对提示措辞的脆弱性,即语义等价的提示变体可能导致截然不同的评判结果,这种不稳定性威胁到自动评估的可信度和泛化能力。具体挑战包括:连贯性任务中JSS跨模型差异高达0.6以上,且与模型规模或更新程度无关;事实性任务中极性反转模板(Template 4)系统性扭曲评判结果。构建过程中面临的核心困难是确保500对提示的语义等价性,需依靠人工标注者精细检验,并对50对极性反转对进行特殊标记和标签重映射处理。此外,偏好性和相关性任务中多数模型存在严重同质化倾向(始终选择选项A),揭示出当前评判模型在多样化场景下普遍缺乏判别力与鲁棒性。
常用场景
经典使用场景
在大型语言模型评估系统的研究中,JudgeSense基准数据集以其精心设计的500组人工验证的提示词对,成为评测模型提示敏感性的标准工具。这些提示词对在语义上等同但措辞各异,从而准确量化评判模型在相同回答上因提示词变化而产生的决策差异。该数据集覆盖事实性、连贯性、偏好性和相关性四大评估任务,每个任务均源自权威基准,如TruthfulQA、SummEval、MT-Bench及BEIR,为研究者提供了一个系统性的平台来严格检验评判模型的健壮性与一致性。
实际应用
在实际应用中,JudgeSense是优化自动评估系统稳定性的关键工具。对于依赖LLM-as-a-Judge架构的内容审核、问答质量评测、对话系统评估等场景,该数据集能够帮助开发人员诊断和缓解因提示措辞变化引发的评估结果波动。例如,平台运营者可以借此校准评判模型,确保内容评分的稳定性;研究机构则能对比不同模型在多元提示模板下的表现一致性,从而筛选出最为鲁棒的评判器。这种应用有效提升了自动评估的可信度,降低了误判风险。
衍生相关工作
基于JudgeSense数据集,学术界和工业界已衍生出一系列经典相关研究。一方面,研究者运用该基准揭示了多个主流评判模型在连贯性任务上敏感度差异显著,且这种差异与模型规模或发布时间并无直接关联,如Claude Opus 4.7的JSS低于Claude Haiku 4.5,挑战了传统直觉。另一方面,工作集中于极性反转模板的检测与校正,通过标签重映射等方法有效修正了系统性偏差。此外,该数据集还激发了对评判性能退化模式的探索,推动了提示工程和模型训练策略的改进,形成了关于评估稳健性的理论框架和实践指导。
以上内容由遇见数据集搜集并总结生成



