LRM-Safety-Study
收藏github2025-05-27 更新2025-05-28 收录
下载链接:
https://github.com/thu-coai/LRM-Safety-Study
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含安全和数学推理样本,存储在`./dataset/data`中。每个安全CoT数据文件包含1,000个样本,数学CoT数据文件包含4,000个样本。数据集字段包括`instruction`(可选)、`prompt`、`response`、`solution`(可选)和`data_type`。
This dataset encompasses samples of security and mathematical reasoning, stored in the `./dataset/data` directory. Each security CoT data file contains 1,000 samples, while each mathematical CoT data file contains 4,000 samples. The dataset fields include `instruction` (optional), `prompt`, `response`, `solution` (optional), and `data_type`.
创建时间:
2025-05-21
原始信息汇总
LRM-Safety-Study 数据集概述
数据集基本信息
- 研究主题: 大型推理模型安全性增强的实证研究
- 关联论文: How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study
- 数据来源: 清华大学COAI实验室
- 获取方式:
- GitHub仓库:
./dataset/data - Hugging Face: thu-coai/LRM-Safety-Study
- GitHub仓库:
数据集内容
原始数据构成
- 数学推理样本: 4,000个(MATH类别)
- 安全相关样本: 6种类型各1,000个,合计6,000个
安全数据分类
- Default CoT: 默认思维链提示
- RealSafe CoT: RealSafe风格思维链提示
- Improved CoT: 改进版思维链提示
- Short CoT: 简短思维链提示
- Template CoT: 模板化思维链提示
- No CoT: 无思维链提示
数据字段说明
instruction(可选): 系统指令prompt: 输入提示response: 模型响应solution(可选): 问题标准答案data_type: 数据类型标记("safety"或"math")
数据处理
- 预处理脚本:
./dataset/proc.py - 处理模式:
- 模式0: 生成SFT格式数据(支持6种安全设置,可选择400或1000个安全样本)
- 模式1: 检查数据长度
评估体系
安全性评估
- PAIR评估
- 脚本路径:
./attack_refusal_evaluation/run_pair.sh - 结果处理:
pair_res.sh
- 脚本路径:
- PAP和None测试
- 脚本路径:
./attack_refusal_evaluation/gen_pap_no.sh
- 脚本路径:
- XSTest评估
- 脚本路径:
./attack_refusal_evaluation/run_xstest.sh
- 脚本路径:
推理能力评估
- 数学推理
- 测试集: MATH-500和AIME 2024
- 脚本路径:
./reasoning_evaluation/eval_math.sh
- 代码生成
- 测试集: LiveCodeBench
- 脚本路径:
./reasoning_evaluation/eval_code.sh
搜集汇总
数据集介绍

构建方式
在大型推理模型安全增强的实证研究中,LRM-Safety-Study数据集的构建采用了多维度方法。研究团队通过整合安全相关和数学推理样本,构建了包含6种不同思维链(CoT)提示风格的数据子集,每种风格均包含1,000个安全样本。数学推理部分则包含4,000个样本以保持领域平衡。原始数据经过严格预处理流程,使用proc.py脚本进行格式转换,支持生成适用于安全微调(SFT)的标准数据集。数据字段设计兼顾系统指令、提示文本、模型响应等关键要素,并通过data_type字段实现安全与数学类别的精确区分。
特点
该数据集最显著的特点是实现了安全与推理能力的协同评估框架。通过Default CoT、RealSafe CoT等6种差异化提示策略,系统考察了不同思维链模式对安全性能的影响。数据集采用双领域设计,既包含1,000个安全样本的深度分析,又涵盖4,000个数学样本的广度验证。每个样本均标注完整的prompt-response对及可选的真实解决方案,支持端到端的模型训练与评估。特别设计的400/1000样本量变体,为研究数据规模效应提供了实验基础。
使用方法
数据集支持完整的研究工作流,通过模块化脚本实现全流程操作。安全微调阶段需配置safety_type和safety_count参数生成定制化SFT数据集。评估体系包含PAIR、PAP等四大安全测试模块,以及MATH-500等三大推理基准。用户可通过修改shell脚本中的模型路径参数,快速部署不同场景的评估任务。数学推理评估需配置eval_math.sh中的模型路径,代码生成评估则需预先克隆LiveCodeBench数据集。所有评估结果均通过标准化脚本自动处理,确保实验的可重复性与可比性。
背景与挑战
背景概述
LRM-Safety-Study数据集由清华大学CoAI团队于2024年发布,旨在系统研究大型推理模型的安全性增强问题。该数据集聚焦于安全推理与数学推理两大核心领域,包含6种不同思维链提示风格的安全相关样本及4000个数学推理样本。作为首个系统探索推理模型安全性的实证研究数据集,其创新性地构建了多维度评估框架,涵盖对抗攻击鲁棒性、过拒绝行为检测以及推理能力保持等关键指标。该研究为理解安全对齐对模型推理能力的影响提供了重要基准,对推动可信AI发展具有显著意义。
当前挑战
该数据集致力于解决大型语言模型在安全推理与数学推理协同优化中的核心挑战。在领域层面,需平衡模型的安全拒绝能力与过拒绝倾向,避免安全对齐损害正常推理功能;同时需应对对抗性提示攻击下的鲁棒性需求。在构建过程中,研究团队面临多维度挑战:如何设计具有代表性的安全推理样本以覆盖复杂现实场景;如何构建标准化评估框架以量化安全-性能权衡;以及如何处理数学推理与安全推理样本的异构性以实现有效联合训练。这些挑战反映了当前安全对齐技术在实际应用中的关键瓶颈。
常用场景
经典使用场景
在大型推理模型的安全增强研究中,LRM-Safety-Study数据集被广泛应用于评估模型在安全相关任务中的表现。通过包含多种思维链(CoT)提示变体,该数据集为研究者提供了丰富的实验材料,用于测试模型在面对潜在有害内容时的拒绝行为及推理能力。经典使用场景包括模型在PAIR、PAP和XSTest等基准测试中的安全性能评估,以及数学和代码推理任务的性能测试。
实际应用
在实际应用中,LRM-Safety-Study数据集为开发安全可靠的大型语言模型提供了重要支持。基于该数据集的训练和评估方法可直接应用于对话系统、内容审核工具和教育辅助平台等场景。例如,通过优化模型的拒绝行为,可减少聊天机器人对敏感话题的过度反应;而在数学和编程任务中的性能评估则确保了模型在学术和工程应用中的实用性。
衍生相关工作
该数据集衍生了一系列关于模型安全对齐和推理能力提升的研究工作。基于其构建的评估基准被广泛应用于比较不同安全微调方法的有效性,例如RealSafe CoT与Improved CoT的对比研究。相关经典工作包括对思维链提示工程的优化探索,以及将安全性与推理性能联合评估的多任务学习框架。这些研究显著推进了大型语言模型在安全性和功能性协同发展方面的理论和技术创新。
以上内容由遇见数据集搜集并总结生成



