"RAJ-PGA: Reasoning-Activated Jailbreak and Principle-Guided Alignment Framework for Large Reasoning Models"

Name: "RAJ-PGA: Reasoning-Activated Jailbreak and Principle-Guided Alignment Framework for Large Reasoning Models"
Creator: IEEE DataPort
Published: 2026-01-15 12:54:03
License: 暂无描述

DataCite Commons2026-01-15 更新2026-05-03 收录

下载链接：

https://ieee-dataport.org/documents/raj-pga-reasoning-activated-jailbreak-and-principle-guided-alignment-framework-large

下载链接

链接失效反馈

官方服务：

资源简介：

"The PGA dataset is a safety alignment dataset specifically designed for Large Reasoning Models (LRMs). It contains 3,989 rigorously verified high-quality samples, aimed at addressing the unique Reasoning-Activated Jailbreak problem in LRMs. Unlike traditional Simple Refusal datasets, PGA strives to shift the alignment paradigm toward Intrinsic Safe Reasoning, thereby enhancing model safety while preserving deep reasoning capabilities."

提供机构：

IEEE DataPort

创建时间：

2026-01-15

5,000+

优质数据集

54 个

任务类型

进入经典数据集