mijabench/dpo_inference_llama_1b

Name: mijabench/dpo_inference_llama_1b
Creator: mijabench
Published: 2026-04-10 21:53:56
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/mijabench/dpo_inference_llama_1b

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: jb_prompt dtype: large_string - name: safe_response dtype: large_string - name: vulnerable_response dtype: large_string - name: llama_1b_base dtype: string - name: llama_1b_dpo dtype: string - name: jb_cls_qwe235_llama_1b_base dtype: string - name: jb_cls_qwe235_llama_1b_dpo dtype: string splits: - name: test num_bytes: 19709729 num_examples: 1998 download_size: 8934610 dataset_size: 19709729 configs: - config_name: default data_files: - split: test path: data/test-* ---

提供机构：

mijabench

搜集汇总

数据集介绍

构建方式

在人工智能安全领域，评估语言模型对恶意指令的抵抗能力至关重要。dpo_inference_llama_1b数据集的构建聚焦于这一核心问题，通过系统性地收集和整理一系列可能诱发模型产生有害内容的提示（jb_prompt），并为每个提示精心配对了安全响应（safe_response）与易受攻击响应（vulnerable_response）。在此基础上，数据集进一步整合了基于Llama-1B架构的基准模型（llama_1b_base）与经过直接偏好优化（DPO）训练的模型（llama_1b_dpo）对相同提示的生成结果，并附带了由特定分类器（jb_cls_qwe235）对这两类模型输出进行的安全性评估分数，从而形成了一个用于系统分析模型鲁棒性与安全性的结构化测试集。

使用方法

使用该数据集时，研究者可将其作为评估语言模型对齐效果与安全性的基准平台。典型应用包括：对比分析llama_1b_base与llama_1b_dpo两列生成文本的内容安全性，以实证评估DPO训练的有效性；利用jb_cls_qwe235分类器分数作为代理指标，快速筛查模型在大量测试用例上的整体安全表现；或深入分析vulnerable_response与模型实际生成内容之间的具体差异，以识别模型仍存在的特定脆弱性模式。数据集仅包含测试分割，适用于模型性能的最终评估与分析，而非训练过程。

背景与挑战

背景概述

随着大型语言模型在自然语言处理领域的广泛应用，其安全性与对齐问题日益成为研究焦点。dpo_inference_llama_1b数据集应运而生，专注于评估语言模型在安全对齐方面的表现。该数据集由研究团队构建，旨在通过对比基础模型与经过直接偏好优化（DPO）训练的模型在对抗性提示下的响应，深入探究模型鲁棒性与安全性。其核心研究问题在于如何有效量化模型对恶意或越狱提示的抵抗能力，为后续模型安全对齐技术的发展提供实证基础，对推动可信人工智能系统构建具有重要影响力。

当前挑战

该数据集旨在解决语言模型安全对齐评估中的挑战，即如何准确衡量模型在面对越狱攻击时的脆弱性。具体而言，挑战包括设计具有代表性的对抗性提示以全面测试模型边界，以及确保安全与脆弱响应标注的可靠性与一致性。在构建过程中，研究人员需克服数据平衡的难题，既要涵盖多样化的攻击场景，又要避免偏差影响评估结果。同时，生成高质量的对齐模型响应并进行有效分类，亦对标注流程与计算资源提出了较高要求。

常用场景

经典使用场景

在人工智能安全与对齐研究领域，dpo_inference_llama_1b数据集为评估语言模型在对抗性提示下的行为提供了关键基准。该数据集通过包含安全响应与脆弱响应对比，以及经过直接偏好优化（DPO）训练的模型输出，使得研究者能够系统分析模型在面临潜在有害指令时的鲁棒性。经典使用场景聚焦于测试模型是否能够有效拒绝不安全请求，同时保持有益对话能力，这为模型安全对齐技术的验证与比较奠定了实证基础。

解决学术问题

该数据集直接针对语言模型安全对齐中的核心学术问题，即如何量化评估模型对越狱攻击的抵抗力。通过提供标准化的测试样本与模型预测结果，它解决了以往研究中评估指标不一致、基准缺失的难题，使得不同安全训练方法（如DPO与监督微调）的效果可比。其意义在于推动了安全对齐研究从定性讨论向定量分析的转变，为构建更可靠、可控的人工智能系统提供了关键数据支撑。

实际应用

在实际应用层面，dpo_inference_llama_1b数据集被广泛用于大型语言模型部署前的安全审计。开发团队利用该数据集测试模型在各类对抗性提示下的实际表现，识别模型可能产生有害内容的风险点，从而指导后续的安全强化训练。此外，该数据集也为制定行业安全标准、开发自动化安全评估工具提供了重要参考，助力于构建符合伦理规范且风险可控的AI应用。

数据集最近研究