lime-nlp/safer-instruct

Name: lime-nlp/safer-instruct
Creator: lime-nlp
Published: 2025-03-25 22:06:25
License: 暂无描述

Hugging Face2025-03-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/lime-nlp/safer-instruct

下载链接

链接失效反馈

官方服务：

资源简介：

Safer-Instruct数据集是为论文《Safer-Instruct: Aligning Language Models with Automated Preference Data》而创建的，旨在通过自动生成偏好数据来增强语言模型的能力。数据集通过反向指令调优、指令归纳和专家模型评估等方法生成，以提高模型的无害性。数据集包含可能令人反感或不安的内容，并且部分数据来自X和Reddit，因此部分数据已被移除。数据集的使用方法包括反向指令调优和偏好训练，具体命令和步骤在README中详细列出。

提供机构：

lime-nlp

原始信息汇总

Safer-Instruct: Aligning Language Models with Automated Preference Data

数据集概述

该数据集用于论文“Safer-Instruct: Aligning Language Models with Automated Preference Data”，旨在通过自动构建大规模偏好数据来增强语言模型的能力。数据集通过反转指令调优、指令归纳和专家模型评估等方法生成高质量的偏好数据，无需人工标注。

数据集内容

数据类型：偏好数据
数据来源：部分数据收集自X和Reddit，但因违反内容分发政策，相关条目已被移除。
使用限制：数据集包含可能令人不快的内容，仅限学术用途。

数据集使用

反转指令调优

使用Stanford Alpaca仓库进行反转指令调优，仅修改了提示模板。

偏好训练

使用Direct Preference Optimization方法进行偏好训练，包括SFT和DPO训练。

引用和联系

如需引用该数据集，请参考以下格式：

@misc{shi2023saferinstruct, title={Safer-Instruct: Aligning Language Models with Automated Preference Data}, author={Taiwei Shi and Kai Chen and Jieyu Zhao}, year={2023}, eprint={2311.08685}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集