lime-nlp/safer-instruct
收藏Hugging Face2025-03-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lime-nlp/safer-instruct
下载链接
链接失效反馈官方服务:
资源简介:
Safer-Instruct数据集是为论文《Safer-Instruct: Aligning Language Models with Automated Preference Data》而创建的,旨在通过自动生成偏好数据来增强语言模型的能力。数据集通过反向指令调优、指令归纳和专家模型评估等方法生成,以提高模型的无害性。数据集包含可能令人反感或不安的内容,并且部分数据来自X和Reddit,因此部分数据已被移除。数据集的使用方法包括反向指令调优和偏好训练,具体命令和步骤在README中详细列出。
Safer-Instruct数据集是为论文《Safer-Instruct: Aligning Language Models with Automated Preference Data》而创建的,旨在通过自动生成偏好数据来增强语言模型的能力。数据集通过反向指令调优、指令归纳和专家模型评估等方法生成,以提高模型的无害性。数据集包含可能令人反感或不安的内容,并且部分数据来自X和Reddit,因此部分数据已被移除。数据集的使用方法包括反向指令调优和偏好训练,具体命令和步骤在README中详细列出。
提供机构:
lime-nlp
原始信息汇总
Safer-Instruct: Aligning Language Models with Automated Preference Data
数据集概述
该数据集用于论文“Safer-Instruct: Aligning Language Models with Automated Preference Data”,旨在通过自动构建大规模偏好数据来增强语言模型的能力。数据集通过反转指令调优、指令归纳和专家模型评估等方法生成高质量的偏好数据,无需人工标注。
数据集内容
- 数据类型:偏好数据
- 数据来源:部分数据收集自X和Reddit,但因违反内容分发政策,相关条目已被移除。
- 使用限制:数据集包含可能令人不快的内容,仅限学术用途。
数据集使用
反转指令调优
使用Stanford Alpaca仓库进行反转指令调优,仅修改了提示模板。
偏好训练
使用Direct Preference Optimization方法进行偏好训练,包括SFT和DPO训练。
引用和联系
如需引用该数据集,请参考以下格式:
@misc{shi2023saferinstruct, title={Safer-Instruct: Aligning Language Models with Automated Preference Data}, author={Taiwei Shi and Kai Chen and Jieyu Zhao}, year={2023}, eprint={2311.08685}, archivePrefix={arXiv}, primaryClass={cs.CL} }



