imerad-kv/r_judge_labelled

Name: imerad-kv/r_judge_labelled
Creator: imerad-kv
Published: 2026-04-30 12:36:57
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/imerad-kv/r_judge_labelled

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集通过LLM法官自动生成的安全标签对R-Judge基准进行了增强。R-Judge是一个用于评估多轮代理场景中LLMs安全判断能力的基准，涵盖五个应用领域（应用、金融、物联网、程序、网络）。数据集包含568行数据（去重后），并提供了基础数据和带有LLM法官标签的增强数据。基础数据列包括应用领域、文件路径、场景ID、场景名称、用户目标、系统提示、对话内容、安全标签（0=安全，1=不安全）、风险描述和攻击类型。增强数据列包括LLM法官的安全标签、置信度、原始输出、解析错误和完整提示。

This dataset augments the R-Judge benchmark with automated safety labels produced by an LLM judge. R-Judge is a benchmark for evaluating the safety judgment capability of LLMs in multi-turn agent scenarios, spanning five application domains (Application, Finance, IoT, Program, Web). The dataset contains 568 rows (after deduplication) and provides both the base data and the augmented data with LLM-judge labels. The base columns include application domain, file path, scenario ID, scenario name, user goal, system prompt, conversation contents, safety label (0=safe, 1=unsafe), risk description, and attack type. The augmented columns include LLM-judge safety label, confidence score, raw output, parse error, and full prompt.

提供机构：

imerad-kv

搜集汇总

数据集介绍

构建方式

在人工智能安全领域，智能体多轮交互场景下的风险评估能力评估一直是重要挑战。r_judge_labelled数据集基于R-Judge基准测试进行增强构建，首先从原始R-Judge仓库中提取所有JSON格式的场景文件，经过解析与去重处理，剔除了三组重复对话，最终保留了568个高质量样本。随后，采用Anthropic Claude Sonnet 4.6作为大模型裁判，对每个样本生成自动化的安全标签。裁判模型接收包含完整对话历史的结构化提示，输出二值安全判定结果（安全或不安全）、置信度评分（0至10）及原始文本输出，所有裁判输出均被记录并追加至原始数据集中，形成包含LLM裁判附加列的增强版本。

特点

该数据集最显著的特点在于其融合了人工标注与自动标注的双重标签体系。原始R-Judge基准提供了涵盖应用、金融、物联网、编程和网页五大领域的多轮智能体场景，每个场景均包含人工撰写的风险描述与攻击类型（注入或非预期）。在此基础上，LLM裁判标签为每条样本补充了自动化安全判定结果与置信度分数，使用户能够同时获取地面真值标签与模型评判视角。此外，数据集保留了完整的裁判原始输出与解析错误标记，便于研究者深入分析裁判模型的行为差异与判定依据，为评估大语言模型安全判断能力提供了多维度的比较基础。

使用方法

使用r_judge_labelled数据集时，可通过HuggingFace Datasets库直接加载CSV格式文件。用户既可以选择仅使用基础列进行安全判断能力的基准测试，也可以结合LLM裁判标签研究自动化评估的可靠性。数据集提供了完整的复现流程：首先通过extract_to_csv.py脚本从原始R-Judge仓库提取基础数据，然后使用run_llm_judge.py脚本运行任意LLM裁判模型生成新标签，默认使用Anthropic Claude Sonnet 4.6，但可通过--provider和--model参数灵活切换至OpenAI等其他提供商。API密钥需通过环境变量或.env文件配置，整个流程依赖pandas、anthropic等Python库，支持通过uv run等工具快速部署运行。

背景与挑战

背景概述

随着大语言模型在自主代理场景中的广泛应用，其安全风险意识评估已成为人工智能安全领域的核心议题。R-Judge基准数据集由Yuan等研究者于2024年提出，旨在系统性评估多轮交互代理任务中大模型的安全判断能力，涵盖应用、金融、物联网、编程和网页五大领域。该数据集在原始版本基础上，进一步引入由Claude Sonnet 4.6等大模型自动生成的安全标注，提供了568条去重后的交互场景及其人工标注的真实风险标签，为研究模型在复杂代理行为中的风险感知边界奠定了重要基础。r_judge_labelled数据集作为R-Judge的增强版，通过融合大模型裁判的置信度评分与原始判断，显著提升了安全评估的自动化水平，对推动代理系统安全对齐研究具有关键价值。

当前挑战

该数据集的核心挑战在于解决代理安全判断领域的两大难题：其一，多轮交互场景中的安全风险具有高度隐蔽性与上下文依赖性，传统静态分类方法难以捕捉注入攻击与非预期行为等动态威胁，亟需能够理解复杂对话历史与代理目标的细粒度风险评估框架；其二，构建过程中面临标注一致性与泛化性的矛盾，人工标注虽精准但成本高昂且易受主观偏差影响，而大模型裁判虽可规模化却存在置信度波动与解析错误风险，如何在保持568条场景覆盖度的前提下平衡自动标注效率与人类判断的可靠性，成为数据集应用的关键瓶颈。

常用场景

经典使用场景

在人工智能安全研究领域，R-Judge评测基准的扩展版本r_judge_labelled数据集为多轮对话智能体系统的安全判断能力评估提供了关键支撑。该数据集精心构建了覆盖应用、金融、物联网、程序开发与Web五大领域的568个真实场景，每个场景均包含完整的用户目标、系统提示、多轮对话内容及人工标注的安全标签。研究者可通过对比智能体模型的安全判定与真实标签间的差异，量化评估模型在复杂交互环境中识别潜在风险的能力，尤其适用于检验大型语言模型对注入攻击和意外行为两类安全威胁的感知水平。

解决学术问题

该数据集系统性地解决了学术界在评估智能体安全风险意识时面临的场景碎片化与标注缺位问题。通过提供经过人工验证的多领域安全样本，R-Judge首次实现了对LLM智能体在真实操作环境中风险感知能力的标准化度量。其核心价值在于揭示了当前主流大模型在判断多步交互中隐蔽安全威胁时存在的系统性不足，推动了从简单文本过滤向复杂行为安全理解的研究范式转变，为构建更可靠的自主智能体系统奠定了评测基础，对AI安全领域的理论建设具有里程碑式意义。

衍生相关工作

基于R-Judge数据集衍生出一系列开创性研究工作，其中最典范的是其原始论文提出的安全风险意识评估框架，该工作被广泛引用于后续的智能体安全对齐研究。该数据集催生了基于LLM的自动化安全标注工具链，包括与Anthropic Claude等多种商用模型配合的评判流程，以及置信度评分机制。这些衍生工作不仅为安全评测提供了可复现的技术方案，还推动了对抗性安全提示库、多轮对话风险预警系统等工具的发展，形成了从数据构建到模型防线的完整学术生态闭环。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集