STAIR-SFT
收藏github2025-02-26 更新2025-02-27 收录
下载链接:
https://github.com/thu-ml/STAIR
下载链接
链接失效反馈官方服务:
资源简介:
STAIR-SFT阶段1的CoT格式对齐的SFT数据
Chain-of-Thought (CoT) format-aligned Supervised Fine-Tuning (SFT) data for Stage 1 of STAIR-SFT
创建时间:
2025-02-04
原始信息汇总
STAIR 数据集概述
数据集简介
STAIR是一个用于提升大型语言模型(LLM)安全性的框架,通过逐步分析潜在风险来增强模型的安全性,并保持模型的性能。该框架的官方实现包含必要的 datasets 和模型权重,以及用于构建成对数据的代码。
数据集详情
-
数据来源:STAIR 从 Ultrafeedback、SafeRLHF 和 JailBreakV 收集样本,构建了两个数据集:STAIR-SFT 和 STAIR-Prompts。
- STAIR-SFT:20k 样本的 SFT 数据集,用于 CoT 格式的对齐。
- STAIR-Prompts:用于第二阶段自我改进的提示种子数据集。
-
数据格式:STAIR-SFT 数据集遵循特定格式,包括提示、推理步骤和最终输出。
模型
- 基础模型:LLama-3.1-8B-Instruct 和 Qwen2-7B-Instruct。
- 训练阶段:提供 SFT 阶段和最终版本的模型权重。
使用说明
- 项目结构:项目包含多个目录,如 actor、prompt_data、mct_data 等,用于存储不同类型的数据和脚本。
- 安装:创建虚拟环境并安装项目依赖。
- MCT 构建和数据构造:使用提供的脚本和配置文件构建 MCT 数据,并生成用于微调的数据。
致谢与引用
- 致谢:感谢 LLaMaFactory 和 OpenRLHF 等库对项目开发的帮助。
- 引用:使用 STAIR 框架的研究应引用相应的论文。
搜集汇总
数据集介绍

构建方式
STAIR-SFT数据集的构建,是通过汇集Ultrafeedback、SafeRLHF和JailBreakV三个数据集中的样本,形成了一个包含20k样本的SFT数据集,用于CoT格式对齐的初级阶段,并构建了一个用于第二阶段自我提升的提示种子数据集。数据集的构建旨在通过逐步分析潜在风险,增强LLM模型的安全性,并保持模型的性能。
特点
STAIR-SFT数据集的特点在于,它不仅包含了用于训练的安全数据,还提供了详细的推理步骤和最终输出,这有助于模型在处理敏感和危险请求时,进行自我反省和风险评估,从而提高安全对齐性。数据集中的每个样本都包含了一个潜在危险请求的逐步推理分析,以及一个符合伦理和法律标准的最终回答。
使用方法
使用STAIR-SFT数据集时,首先需要准备模型权重和提示数据。接着,可以使用vLLM加速MCT数据的生成,并根据需要自定义配置文件。生成MCT数据后,可以利用提供的数据构建策略来构建微调数据,并对模型进行微调。整个流程包括数据准备、MCT数据生成、微调数据构建和模型微调几个步骤。
背景与挑战
背景概述
STAIR-SFT数据集是在2023年由清华大学机器学习团队开发的一项研究资源,旨在通过逐步分析潜在风险来提升大型语言模型(LLM)的安全性。该数据集的创建源于对模型安全对齐的深入研究,核心研究问题是如何在保证模型能力的同时,增强其安全性。STAIR-SFT的构建,对于理解模型在处理敏感或高风险内容时的行为,提供了重要的研究基础,对促进人工智能安全领域的发展具有重要意义。
当前挑战
STAIR-SFT数据集在构建过程中面临的挑战主要包括:如何准确识别并处理高风险的输入,以及如何在保障安全性的同时不损害模型的性能。具体而言,数据集的挑战体现在两个方面,一是所解决的领域问题,即通过逐步推理来避免模型生成有害或违法的内容;二是构建过程中的挑战,包括如何设计有效的逐步推理框架,以及如何从大量的数据中筛选出适合训练的样本。
常用场景
经典使用场景
STAIR-SFT数据集作为一项旨在提升大型语言模型安全性的研究工具,其经典使用场景在于为模型训练提供了一种逐步分析潜在风险的机制。该数据集通过构建包含详细推理步骤的样本,辅助模型在处理高风险内容时作出更为安全、合规的响应。
解决学术问题
STAIR-SFT数据集解决了如何在保持模型能力的同时,增强大型语言模型的安全性对齐问题。通过引入自我反思推理过程,该数据集帮助研究者训练出能够在面对敏感或不当请求时,进行有效风险评估并拒绝提供相关支持的语言模型。
衍生相关工作
基于STAIR-SFT数据集的研究衍生出了多种相关工作,包括但不限于进一步探讨如何通过自我推理和风险评估来优化模型的安全性,以及如何在不同领域的应用中实现安全性的可扩展性。这些研究为人工智能安全性的提升提供了新的视角和方法论。
以上内容由遇见数据集搜集并总结生成



